1. R 소개
1. R의 특징
- 오픈소스 프로그램으로 통계, 데이터 마이닝과 그래프를 위한 언어
- 다양한 최신 통계 분석 및 마이닝 기능을 R 플랫폼에서 제공
- 뛰어난 그래픽 처리, 데이터 처리 및 계산 능력, 다양한 패키지 제공
- 주기억장치를 이용하여 처리 속도가 빠름 - 모든 운영체제에서 사용 가능(윈도우, 맥, 리눅스)
- 객체지향언어이면서 함수형 언어
2. R 기초
1. R의 데이터 구조
① 벡터(vector)
- 하나의 스칼라 값, 혹은 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합
- 모든 원소가 같은 자료형(모드)여야 함
② 행렬(matrix)
- 행과 열을 갖는 m×n 형태의 직사각형의 데이터를 나열한 데이터 구조 matrix 명령어 사용하여 행렬 생성
③ 배열(array)
- 데이터의 형태가 3차원 이상으로 구성된 자료구조, 행렬의 확장 개념
④ 데이터 프레임(data frame)
- 행렬과 유사한 2차원 목록 데이터 구조
- 열은 같은 데이터 타입, 행은 데이터 타입이 같지 않아도 됨
- 가장 많이 사용되고 데이터 구조
⑤ 리스트(list)
- 벡터(vector), 요인(factor), 행렬(matrix), 배열(array), 데이터프레임(data frame)과 리스트 자체까지 원소로 가질 수 있음
- 서로 다른 데이터 타입 허용
⑥ 요인(factor)
- 문자형 데이터가 저장된 벡터의 일종 (예) 성별, 혈액형 등
- 데이터를 질적 자료(또는 범주형 자료)로 변환해 주는 기능, 질적 자료는 집단별로 통계분석 가능
- 범주형 데이터 종류: 명목형 데이터, 서열형 데이터
[기출문제] 아래의 R 스크립트를 실행하며 얻게 되는 결과로 가장 적절한 것은?
>
정답: 3 3 5 4 5 7 (풀이)
[기출문제] 아래는 R 명령을 수행시킨 결과이다.
다음의 서술 중 가장 부적절한 것은?
① 데이터프레임 iris는 5개의 변수를 포함한다.
② 데이터프레임 iris에 속한 변수 중 1개의 변수는 요인(factor)이다.
③ 데이터프레임 iris는 제1사분위수가 0.3인 변수를 포함한다.
④ 데이터프레임 iris는 100개의 관측치를 갖는다.
정답: ④
2. R의 기초 함수
(1) 벡터의 수열 생성하기
① rep(반복할 내용, 반복수) : 같은 값의 단순 반복
② seq(from=시작점, to=끝점, by=간격) : 일정한 간격으로 숫자를 나열
③ 시작값:끝값
[기출문제] 다음 중 나머지 3개의 다른 결과를 주는 명령은 무엇인가?
① seq(1, 10, 2)
② seq(b=2, f=1, t=10)
③ seq(from=1, to=10, length=5)
④ 1:5*2-1
정답: ③ (풀이)
3. 기본적인 통계량 계산
기능 | 함수 | 기능 | 함수 |
평균 | mean() | 분산 | var() |
중간값 | median() | 공분산 | cov() |
표준편차 | sd() | 상관계수 | cor() |
[기출문제] 아래는 R 명령을 수행시킨 결과이다. 다음의 서술 중 가장 부적절한 것은?
① 데이터프레임 iris는 5개의 변수를 포함한다.
② 데이터프레임 iris에 속한 변수 중 1개의 변수는 요인(factor)이다.
③ 데이터프레임 iris는 제1사분위수가 0.3인 변수를 포함한다.
④ 데이터프레임 iris는 100개의 관측치를 갖는다.
정답: ④ (풀이) Species 컬럼은 iris 데이터셋의 Factor형 변수로 각 꽃의 종류별 개수를 summary() 함수에서 볼 수 있으므로 총 150개의 관측치가 있은 것으로 확인되므로 4번이 틀린 보기이다. Summary() 함수는 Factor형 자료만 개수를 세어 준다. Character형 자료는 개수를 세어주지 않으므로 주의해야 한다.
4. R 그래픽 기능
① 산점도 그래프: plot() 함수
- x 변수와 y 변수의 값을 한눈에 살펴볼 수 있도록 평면에 점을 찍어 표현
② 산점도 행렬: pairs() 함수
- 여러 차원의 변수들에 대해서 각각의 산점도를 한 눈에 살펴볼 수 있도록 확장한 산점도 행렬
- 여러 변수들을 한 공간에 표현하기 위해서는 4차원, 5차원 공간이 도입되어야 하므로 이를 극복하기 위해 도입된 그래프
③ 히스토그램: hist()
- 연속형 데이터를 일정하게 나눈 구간(계급)을 가로축, 각 구간에 해당하는 데이터의 수(도수)를 세로축으로 그린 그래프
④ 상자 그림 : boxplot()
[기출문제] 여섯 가지 종류의 닭 사료 첨가물의 효과를 비교하기 위한 데이터와 그래프이다. 아래의 대한 설명으로 다음 중 적절하지 않은 것은 무엇인가?
① weight의 중앙값은 horsebean 그룹이 가장 작다.
② 이상값은 존재하지 않는다.
③ meatmeal 그룹과 linseed 그룹의 weight의 평균이 유의한 차이가 있는지 알 수 없다.
④ horsebean 그룹에서 weight가 150보다 작은 개체가 약 50%가량 된다.
정답: ②
'개인공부 > ADsP' 카테고리의 다른 글
[ADsP 정리] 3. 데이터 분석(3) (1) | 2024.05.17 |
---|---|
[ADsP 정리] 3. 데이터 분석(2) (2) | 2024.05.14 |
[ADsP 정리] 2. 데이터 분석기획(2) (0) | 2024.05.09 |
[ADsP 정리] 2. 데이터분석 기획 (0) | 2024.05.06 |
[ADsP 정리] 1. 데이터 이해(3) (2) | 2024.05.04 |