이번 시간에는 ADsP 1과목 데이터의 이해에서 1. 데이터의 이해부터 1.3 데이터베이스의 활용에 대해서 알아보겠습니다.
이 정보는 개인 공부 목적으로 작성 되었으며, 혹시 잘못 작성된 부분이 있다면 댓글로 알려주시면 감사하겠습니다.
1. 빅 데이터 의 이해
1. 빅 데이터의 특징 (3 가지 ) : 3V
① 규모 (Volume) 데이터의 양
* 데이터 양의 단위
- 기가바이트 (GB) < 테라바이트 (TB) < 페타바이트 PB) < 엑사바이트 (EB) < 제타바이트 (ZB) < 요타바이트 (YB)
② 형태 (Variety) - 데이터 유형과 소스 측면의 다양성
* 데이터의 유형
– 정형데이터, 반정형데이터, 비정형데이터 종류 설명
종류 | 설명 |
정형 | 고정된 필드에 저장된 데이터 (예) 관계형 데이타베이스, 스프레드시트 |
반정형 | 고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터 (예) XML, HTML 텍스트 |
비정형 | 고정된 필드에 저장되어 있지 않은 데이터 (예) 텍스트 분석이 가능한 텍스트 문서 , 이미지 〮 동영상 〮 음성 데이터 |
③속도 (Velocity) -- 데이터 수집과 처리 측면에서 속도
cf) 4V – 가치(Value)
2. 빅 데이터 출현 배경 관련 기술 발전 측면
① 디지털화의 급진전 : 아날로그 → 디지털 전환
② 저장 기술의 발전과 가격하락
- 압축기술의 발전 → 비용 저렴
- 저장장치의 가격 급격한 하락 → 정보 생산량 급증
③ 인터넷 발전
- 인터넷 사업 모델 → 양면시장모델(커온비지니스모델)
④ 모바일 시대
- SNS( 감정 정보 ), GPS, 가속센서, 거리센서 정보 양산
⑤ 클라우드 컴퓨팅(가장 큰 영향)
- 클라우드로 많은 정보 수집
- 빅 데이터 의 처리 비용을 획기적으로 낮춤 하둡의 맵리듀스 )
3. 빅데이터 기능(기대) → 무한한 가능성
① 산업혁명의 석탄 철
② 21 세기의 원유
③ 렌즈 역할
예 ) 구글 'Ngram Viewer' The United State is/are
④ 플랫폼 역할 예 ) 카카오톡 , 페이스북
참고 ) 컴퓨팅 플랫폼 (computing platform)
- 소프트웨어가 구동 가능한 하드웨어 아키텍처나 소프트웨어 프레임워크(응용 프로그램 프레임워크를
포함하는) 의 종류를 설명하는 단어
4. 빅데이터가 만들어 내는 본질적인 변화 근본적인 변화 사표질인
① 사전처리 → 사후처리
② 표본조사 → 전수조사
- 샘플링이 주지 못하는 패턴이나 정보를 얻을 수 있는 전수조사 (complete enumeration)로 변화
- 전수 조사의 장점
① 표본조사가 주지 못하는 패턴이나 정보 제공
② 융통성 유지 모든 데이터를 모아두면 바뀐 질문에 다양한 방식으로 재가공 가능
③ 질 → 양
- 빅 데이터 의 마법 : 엄청난 용량이 질적으로 전환하는 과정에서 나타남
- 지속적으로 데이터가 추가 => 양질의 정보 > 오류 정보
- 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다
- 데이터 수가 증가함에 따라 사소한 몇 개의 오류
- 데이터가 대세에 영향을 주지 못하는 경향
④ 인과관계 → 상관관계
- 인과관계를 모르고 상관관계 분석만으로 충분한 경우 多
2. 빅 데이터 가치와 영향
1. 빅 데이터 가치 선정이 어려운 이유 (3)
① 데이터 활용 방식
- 재사용 , 재조합 (mashup), 다목적용 개발
② 새로운 가치 창출
- 데이터가 기존에 없던 가치를 창출함에 따라 가치 측정이 어려움
③ 분석 기술 발전
- 클라우드 분산 컴퓨팅과 새로운 분석 기법의 등장으로 가치 없는 데이터도 거대한 가치를 만들어 내는 재료가 될 가능성이 높아짐
3. 비즈니스 모델
1. 빅데이터 활용사례 (3가지)
① 기업 혁신 사례
- 구글 검색 기능 월마트 매출 향상 질병 예후 진단 등 의료분야에 접목
② 정부 활용 사례
- 실시간 교통정보수집 , 기후정보 , 각종 지질활동 등에 활용 , 국가안전 확보 활동 및 의료와 교육 개선에 활용 방안 모색
③ 개인 활용 사례
- 정치인과 가수의 SNS 활용
2. 빅데이터 활용 기본 테크닉 (7가지) 연유유기회감소
① 연관규칙 학습 (Association rule learning)
- 어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
예 ) A 를 구매한 사람이 B 를 더 많이 사는가
② 유형 분석 (Classification tree analysis)
- 새로운 사건이 속하게 될 범주를 찾아내는 일
예 ) 이 사용자가 어떤 특성을 가진 집단에 속하는가?
③ 유전 알고리즘 (Genetic algorithms)
- 최적화가 필요한 문제의 해결책을 자연선택 , 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
예 ) 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송
④ 기계 학습 (Machine learning)
- 훈련 데이터로부터 학습하여 알려진 특성을 활용해 '예측'하는데 초점
예 ) 기존 시청기록을 바탕으로 시청자는 보유한 영화 중 어떤 영화를 가장 보고 싶어 하는가?
⑤ 회귀 분석 (Regression analysis)
- 독립변수를 조작하며 , 종속변수가 어떻게 변하는지를 보며 두 변인의 관계를 파악
예 ) 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? (나이 독립변수 , 구매차량 타입 종속변수)
⑥ 감정 분석 (Sentiment analysis)
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
예 ) 새로운 환불 정책에 대한 고객의 평가는 어떤가?
⑦ 소셜 네트워크 분석 (Social network analysis)
- 오피니언 리더 , 즉 영향력 있는 사람을 찾아낼 수 있으며 , 고객들 간 소셜 관계를 파악
예 ) 특정인과 다른 사람이 몇 촌 정도의 관계인가?
4. 위기 요인과 통제 방안
1. 빅 데이터 의 위기 요인 (3가지)
① 사생활 침해 → 동의에서 책임으로
- 데이터 수집이 신속 용이하고 , 양이 증대됨에 따라 개인의 사생활 침해 위협뿐만 아니라 범위가 사회 · 경제적 위협으로 변형될 수 있음 .
- 익명화 기술이 발전되고 있으나 , 아직도 충분치 않음 .
② 책임원칙 훼손 → 결과 기반 책임 원칙 고수
- 빅데이터 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 높아짐
- 빅데이터 시스템에 의해 부당하게 피해 보는 상황을 최소화할 장치마련이 반드시 필요
예 ) 영화 마이너리트 레포트 에서 범죄률 예측만으로 체포
- 2054 년 워싱턴 , 범죄가 일어나기 전 범죄를 예측해 범죄자를 처단하는 최첨단 치안 시스템 - 프리크라임은 시민들의 안전을 지켜주는 든든한 존재이다 . 프리크라임은 범죄가 일어날 시간과 장소, 범행을 저지를 사람을 미리 예측해내고 , 이를 바탕으로 미래의 범죄자들을 체포한다.
③ 데이터 오용 → 알고리즘 접근 허용
- 데이터 과신 , 잘못된 지표의 사용으로 인한 잘못된 인사이트를 얻어 비즈니스에 적용할 경우 직접 손실 발생
2. 빅 데이터 위기에 대한 통제방안 (3가지)
① 사생활 침해 : 동의에서 책임으로
- 개인정보 제공자의 동의 를 통해 해결하기보다 개인정보 사용자의 책임 으로 해결
② 책임원칙 훼손 : 결과 기반 책임 원칙 고수
- 특정인의 성향 에 따라 처벌하는 것이 아닌 행동 결과 를 보고 처벌
③ 데이터 오용 : 알고리즘 접근 허용
- 알고리즘 접근권 보장 및 알고리즘에 의한 불이익을 당한 사람들을 대변해 피해자를 구제할 수 있는 능력을 가진 전문가로서 컴퓨터와 수학 , 통계학이나 비즈니스에 두루 깊은 지식을 갖춘 '알고리즈미스트' 대두
3. 개인정보 비식별 기술
- 데이터 셋에서 개인을 식별할 수 있는 요소를 전부 또는 일부를 삭제하거나 다른 값으로 대체하는 등의 방법으로 개인을 알아볼 수 없도록 하는 기술
(1) 데이터 마스킹
- 데이터의 길이 , 유형 , 형식과 같은 속성을 유지한 채 , 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술
예 ) 홍길동, 35세, 서울 거주, 한국대 재학
=> 홍 **, 35세, 서울 거주, 대학 재학
(2) 가명처리
- 개인정보 주체의 이름을 다른 이름으로 변경하는 기술 , 다른 값으로 대체할 시 일정한 규칙이 노출되지 않도록 주의해야 함
예 ) 홍길동, 35세, 서울 거주, 한국대 재학
=> 임꺽정, 35세, 서울 거주, 국내대 재학
(3) 총계처리
- 데이터의 총합 값을 보임으로서 개별 데이터의 값을 보이지 않도록 함 . 단 , 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 개인 정보를 공개하는 것과 마찬가지의 결과이므로 주의해야 함
예 ) 이순신 180cm, 김짱구 170cm, 박하늘 160m, 신델렐라 150cm
=> 역사학과 학생 키 합 : 660cm, 평균키 : 165cm
(4) 데이터값 삭제
- 데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요없는 값 도는 개인 식별에 중요한 값을 삭제
- 개인과 관련된 날짜 정보 자격취득일자, 합격일 등 은 연단위로 처리
예 ) 홍길동 35세, 서울거주, 한국대졸업 =>35세, 서울 거주
(5) 데이터 범주화
- 데이터의 값을 범주의 값으로 변환하여 값을 숨김
예 ) 홍길동, 35 세 => 홍씨, 30~40세
5. 미래의 빅 데이터
1. 빅데이터 활용에 필요한 기본 3 요소
① 데이터 모든 것의 데이터화 (Datafication)
- 수많은 센서 (IoT, CCTV, 센서)들이 인터넷에 연결되는 사물인터넷 시대
- 사물인터넷 (IoT)
* 사물인터넷 (IoT) 은 각종 사물에 센서와 통신 기능을 내장하여 인터넷에 연결하는 기술. 즉, 무선 통신을 통해 각종 사물을 연결하는 기술을 의미한다 . 인터넷으로 연결된 사물들이 데이터를 주고받아 스스로 분석하고 학습한 정보를 사용자에게 제공하거나 사용자가 이를 원격 조정할 수 있는 인공지능 기술이다.
② 기술
- 진화하는 알고리즘 , 인공지능 (Artificial Intelligence)
- 인공지능 > 머신러닝 > 딥러닝
③ 인력
- 데이터 사이언티스트 , 알고리즈미스트 (Algorithmist)
'Study > ADsP' 카테고리의 다른 글
[ADsP 정리] 3. 데이터 분석(1) (0) | 2024.05.13 |
---|---|
[ADsP 정리] 2. 데이터 분석기획(2) (0) | 2024.05.09 |
[ADsP 정리] 2. 데이터분석 기획 (0) | 2024.05.06 |
[ADsP 정리] 1. 데이터 이해(3) (2) | 2024.05.04 |
[ADsP 정리] 1. 데이터 이해(1) (2) | 2024.05.01 |