728x90
728x90

1. R 소개

1. R의 특징

- 오픈소스 프로그램으로 통계, 데이터 마이닝과 그래프를 위한 언어

- 다양한 최신 통계 분석 및 마이닝 기능을 R 플랫폼에서 제공

- 뛰어난 그래픽 처리, 데이터 처리 및 계산 능력, 다양한 패키지 제공

- 주기억장치를 이용하여 처리 속도가 빠름 - 모든 운영체제에서 사용 가능(윈도우, 맥, 리눅스)

- 객체지향언어이면서 함수형 언어

 

2. R 기초

1. R의 데이터 구조 

① 벡터(vector)

- 하나의 스칼라 값, 혹은 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합

- 모든 원소가 같은 자료형(모드)여야 함

② 행렬(matrix)

- 행과 열을 갖는 m×n 형태의 직사각형의 데이터를 나열한 데이터 구조 matrix 명령어 사용하여 행렬 생성

③ 배열(array)

- 데이터의 형태가 3차원 이상으로 구성된 자료구조, 행렬의 확장 개념

④ 데이터 프레임(data frame)

- 행렬과 유사한 2차원 목록 데이터 구조

- 열은 같은 데이터 타입, 행은 데이터 타입이 같지 않아도 됨

- 가장 많이 사용되고 데이터 구조

⑤ 리스트(list)

- 벡터(vector), 요인(factor), 행렬(matrix), 배열(array), 데이터프레임(data frame)과 리스트 자체까지 원소로 가질 수 있음

- 서로 다른 데이터 타입 허용

⑥ 요인(factor)

- 문자형 데이터가 저장된 벡터의 일종 (예) 성별, 혈액형 등

- 데이터를 질적 자료(또는 범주형 자료)로 변환해 주는 기능, 질적 자료는 집단별로 통계분석 가능

- 범주형 데이터 종류: 명목형 데이터, 서열형 데이터

 

  [기출문제] 아래의 R 스크립트를 실행하며 얻게 되는 결과로 가장 적절한 것은?

  >

문제1

더보기

정답: 3 3 5 4 5 7 (풀이)

  [기출문제] 아래는 R 명령을 수행시킨 결과이다.

  다음의 서술 중 가장 부적절한 것은?

  ① 데이터프레임 iris는 5개의 변수를 포함한다.

  ② 데이터프레임 iris에 속한 변수 중 1개의 변수는 요인(factor)이다.

  ③ 데이터프레임 iris는 제1사분위수가 0.3인 변수를 포함한다.

  ④ 데이터프레임 iris는 100개의 관측치를 갖는다.

더보기

정답: ④

 

2. R의 기초 함수

(1) 벡터의 수열 생성하기

  ① rep(반복할 내용, 반복수) : 같은 값의 단순 반복

  ② seq(from=시작점, to=끝점, by=간격) : 일정한 간격으로 숫자를 나열

  ③ 시작값:끝값

 

  [기출문제] 다음 중 나머지 3개의 다른 결과를 주는 명령은 무엇인가?

  ① seq(1, 10, 2)

  ② seq(b=2, f=1, t=10)

  ③ seq(from=1, to=10, length=5)

  ④ 1:5*2-1

더보기

정답: ③ (풀이)

 

3. 기본적인 통계량 계산

기능 함수 기능 함수
평균 mean() 분산 var()
중간값 median() 공분산 cov()
표준편차 sd() 상관계수 cor()

               

 

  [기출문제] 아래는 R 명령을 수행시킨 결과이다. 다음의 서술 중 가장 부적절한 것은?

summary

 

  ① 데이터프레임 iris는 5개의 변수를 포함한다.

  ② 데이터프레임 iris에 속한 변수 중 1개의 변수는 요인(factor)이다.

  ③ 데이터프레임 iris는 제1사분위수가 0.3인 변수를 포함한다.

  ④ 데이터프레임 iris는 100개의 관측치를 갖는다.

더보기

정답: ④ (풀이) Species 컬럼은 iris 데이터셋의 Factor형 변수로 각 꽃의 종류별 개수를 summary() 함수에서 볼 수 있으므로 총 150개의 관측치가 있은 것으로 확인되므로 4번이 틀린 보기이다. Summary() 함수는 Factor형 자료만 개수를 세어 준다. Character형 자료는 개수를 세어주지 않으므로 주의해야 한다. 

 

4. R 그래픽 기능

① 산점도 그래프: plot() 함수

  - x 변수와 y 변수의 값을 한눈에 살펴볼 수 있도록 평면에 점을 찍어 표현

plot

② 산점도 행렬: pairs() 함수

  - 여러 차원의 변수들에 대해서 각각의 산점도를 한 눈에 살펴볼 수 있도록 확장한 산점도 행렬

  - 여러 변수들을 한 공간에 표현하기 위해서는 4차원, 5차원 공간이 도입되어야 하므로 이를 극복하기 위해 도입된 그래프

pairs

③ 히스토그램: hist()

  - 연속형 데이터를 일정하게 나눈 구간(계급)을 가로축, 각 구간에 해당하는 데이터의 수(도수)를 세로축으로 그린 그래프

④ 상자 그림 : boxplot() 

boxplot

 

  [기출문제] 여섯 가지 종류의 닭 사료 첨가물의 효과를 비교하기 위한 데이터와 그래프이다. 아래의 대한 설명으로 다음 중 적절하지 않은 것은 무엇인가?

summary

  ① weight의 중앙값은 horsebean 그룹이 가장 작다.

  ② 이상값은 존재하지 않는다.

  ③ meatmeal 그룹과 linseed 그룹의 weight의 평균이 유의한 차이가 있는지 알 수 없다.

  ④ horsebean 그룹에서 weight가 150보다 작은 개체가 약 50%가량 된다.

더보기

정답: ②

 

728x90
300x250