[ADsP 정리] 1. 데이터 이해(2)

Study/ADsP

[ADsP 정리] 1. 데이터 이해(2)

개발자지니!

|2024. 5. 2. 09:51

이번 시간에는 ADsP 1과목 데이터의 이해에서 1. 데이터의 이해부터 1.3 데이터베이스의 활용에 대해서 알아보겠습니다.

이 정보는 개인 공부 목적으로 작성 되었으며, 혹시 잘못 작성된 부분이 있다면 댓글로 알려주시면 감사하겠습니다.

1. 빅 데이터 의 이해

1. 빅 데이터의 특징 (3 가지 ) : 3V

① 규모 (Volume) 데이터의 양

* 데이터 양의 단위
- 기가바이트 (GB) < 테라바이트 (TB) < 페타바이트 PB) < 엑사바이트 (EB) < 제타바이트 (ZB) < 요타바이트 (YB)

② 형태 (Variety) - 데이터 유형과 소스 측면의 다양성

* 데이터의 유형
– 정형데이터, 반정형데이터, 비정형데이터 종류 설명

종류	설명
정형	고정된 필드에 저장된 데이터 (예) 관계형 데이타베이스, 스프레드시트
반정형	고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터 (예) XML, HTML 텍스트
비정형	고정된 필드에 저장되어 있지 않은 데이터 (예) 텍스트 분석이 가능한 텍스트 문서 , 이미지 〮 동영상 〮 음성 데이터

③속도 (Velocity) -- 데이터 수집과 처리 측면에서 속도

cf) 4V – 가치(Value)

2. 빅 데이터 출현 배경 관련 기술 발전 측면

① 디지털화의 급진전 : 아날로그 → 디지털 전환

② 저장 기술의 발전과 가격하락

- 압축기술의 발전 → 비용 저렴
- 저장장치의 가격 급격한 하락 → 정보 생산량 급증

③ 인터넷 발전

- 인터넷 사업 모델 → 양면시장모델(커온비지니스모델)

④ 모바일 시대

- SNS( 감정 정보 ), GPS, 가속센서, 거리센서 정보 양산

⑤ 클라우드 컴퓨팅(가장 큰 영향)

- 클라우드로 많은 정보 수집
- 빅 데이터 의 처리 비용을 획기적으로 낮춤 하둡의 맵리듀스 )

3. 빅데이터 기능(기대) → 무한한 가능성

① 산업혁명의 석탄 철

② 21 세기의 원유

③ 렌즈 역할

예 ) 구글 'Ngram Viewer' The United State is/are

④ 플랫폼 역할 예 ) 카카오톡 , 페이스북

참고 ) 컴퓨팅 플랫폼 (computing platform)
- 소프트웨어가 구동 가능한 하드웨어 아키텍처나 소프트웨어 프레임워크(응용 프로그램 프레임워크를

포함하는) 의 종류를 설명하는 단어

4. 빅데이터가 만들어 내는 본질적인 변화 근본적인 변화 사표질인

① 사전처리 → 사후처리

② 표본조사 → 전수조사

- 샘플링이 주지 못하는 패턴이나 정보를 얻을 수 있는 전수조사 (complete enumeration)로 변화
- 전수 조사의 장점
① 표본조사가 주지 못하는 패턴이나 정보 제공
② 융통성 유지 모든 데이터를 모아두면 바뀐 질문에 다양한 방식으로 재가공 가능

③ 질 → 양

- 빅 데이터 의 마법 : 엄청난 용량이 질적으로 전환하는 과정에서 나타남

- 지속적으로 데이터가 추가 => 양질의 정보 > 오류 정보

- 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다

- 데이터 수가 증가함에 따라 사소한 몇 개의 오류

- 데이터가 대세에 영향을 주지 못하는 경향

④ 인과관계 → 상관관계

- 인과관계를 모르고 상관관계 분석만으로 충분한 경우 多

2. 빅 데이터 가치와 영향

1. 빅 데이터 가치 선정이 어려운 이유 (3)

① 데이터 활용 방식

- 재사용 , 재조합 (mashup), 다목적용 개발

② 새로운 가치 창출

- 데이터가 기존에 없던 가치를 창출함에 따라 가치 측정이 어려움

③ 분석 기술 발전

- 클라우드 분산 컴퓨팅과 새로운 분석 기법의 등장으로 가치 없는 데이터도 거대한 가치를 만들어 내는 재료가 될 가능성이 높아짐

3. 비즈니스 모델

1. 빅데이터 활용사례 (3가지)

① 기업 혁신 사례

- 구글 검색 기능 월마트 매출 향상 질병 예후 진단 등 의료분야에 접목

② 정부 활용 사례

- 실시간 교통정보수집 , 기후정보 , 각종 지질활동 등에 활용 , 국가안전 확보 활동 및 의료와 교육 개선에 활용 방안 모색

③ 개인 활용 사례

- 정치인과 가수의 SNS 활용

2. 빅데이터 활용 기본 테크닉 (7가지) 연유유기회감소

① 연관규칙 학습 (Association rule learning)

- 어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
예 ) A 를 구매한 사람이 B 를 더 많이 사는가

② 유형 분석 (Classification tree analysis)

- 새로운 사건이 속하게 될 범주를 찾아내는 일
예 ) 이 사용자가 어떤 특성을 가진 집단에 속하는가?

③ 유전 알고리즘 (Genetic algorithms)

- 최적화가 필요한 문제의 해결책을 자연선택 , 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
예 ) 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송

④ 기계 학습 (Machine learning)

- 훈련 데이터로부터 학습하여 알려진 특성을 활용해 '예측'하는데 초점

예 ) 기존 시청기록을 바탕으로 시청자는 보유한 영화 중 어떤 영화를 가장 보고 싶어 하는가?

⑤ 회귀 분석 (Regression analysis)

- 독립변수를 조작하며 , 종속변수가 어떻게 변하는지를 보며 두 변인의 관계를 파악
예 ) 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? (나이 독립변수 , 구매차량 타입 종속변수)

⑥ 감정 분석 (Sentiment analysis)

- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
예 ) 새로운 환불 정책에 대한 고객의 평가는 어떤가?

⑦ 소셜 네트워크 분석 (Social network analysis)

- 오피니언 리더 , 즉 영향력 있는 사람을 찾아낼 수 있으며 , 고객들 간 소셜 관계를 파악
예 ) 특정인과 다른 사람이 몇 촌 정도의 관계인가?

4. 위기 요인과 통제 방안

1. 빅 데이터 의 위기 요인 (3가지)

① 사생활 침해 → 동의에서 책임으로

- 데이터 수집이 신속 용이하고 , 양이 증대됨에 따라 개인의 사생활 침해 위협뿐만 아니라 범위가 사회 · 경제적 위협으로 변형될 수 있음 .

- 익명화 기술이 발전되고 있으나 , 아직도 충분치 않음 .

② 책임원칙 훼손 → 결과 기반 책임 원칙 고수

- 빅데이터 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 높아짐

- 빅데이터 시스템에 의해 부당하게 피해 보는 상황을 최소화할 장치마련이 반드시 필요
예 ) 영화 마이너리트 레포트 에서 범죄률 예측만으로 체포

- 2054 년 워싱턴 , 범죄가 일어나기 전 범죄를 예측해 범죄자를 처단하는 최첨단 치안 시스템 - 프리크라임은 시민들의 안전을 지켜주는 든든한 존재이다 . 프리크라임은 범죄가 일어날 시간과 장소, 범행을 저지를 사람을 미리 예측해내고 , 이를 바탕으로 미래의 범죄자들을 체포한다.

③ 데이터 오용 → 알고리즘 접근 허용

- 데이터 과신 , 잘못된 지표의 사용으로 인한 잘못된 인사이트를 얻어 비즈니스에 적용할 경우 직접 손실 발생

2. 빅 데이터 위기에 대한 통제방안 (3가지)

① 사생활 침해 : 동의에서 책임으로

- 개인정보 제공자의 동의 를 통해 해결하기보다 개인정보 사용자의 책임 으로 해결

② 책임원칙 훼손 : 결과 기반 책임 원칙 고수

- 특정인의 성향 에 따라 처벌하는 것이 아닌 행동 결과 를 보고 처벌

③ 데이터 오용 : 알고리즘 접근 허용

- 알고리즘 접근권 보장 및 알고리즘에 의한 불이익을 당한 사람들을 대변해 피해자를 구제할 수 있는 능력을 가진 전문가로서 컴퓨터와 수학 , 통계학이나 비즈니스에 두루 깊은 지식을 갖춘 '알고리즈미스트' 대두

3. 개인정보 비식별 기술

- 데이터 셋에서 개인을 식별할 수 있는 요소를 전부 또는 일부를 삭제하거나 다른 값으로 대체하는 등의 방법으로 개인을 알아볼 수 없도록 하는 기술

(1) 데이터 마스킹

- 데이터의 길이 , 유형 , 형식과 같은 속성을 유지한 채 , 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술
예 ) 홍길동, 35세, 서울 거주, 한국대 재학
=> 홍 **, 35세, 서울 거주, 대학 재학

(2) 가명처리

- 개인정보 주체의 이름을 다른 이름으로 변경하는 기술 , 다른 값으로 대체할 시 일정한 규칙이 노출되지 않도록 주의해야 함
예 ) 홍길동, 35세, 서울 거주, 한국대 재학
=> 임꺽정, 35세, 서울 거주, 국내대 재학

(3) 총계처리

- 데이터의 총합 값을 보임으로서 개별 데이터의 값을 보이지 않도록 함 . 단 , 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 개인 정보를 공개하는 것과 마찬가지의 결과이므로 주의해야 함
예 ) 이순신 180cm, 김짱구 170cm, 박하늘 160m, 신델렐라 150cm
=> 역사학과 학생 키 합 : 660cm, 평균키 : 165cm

(4) 데이터값 삭제

- 데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요없는 값 도는 개인 식별에 중요한 값을 삭제
- 개인과 관련된 날짜 정보 자격취득일자, 합격일 등 은 연단위로 처리
예 ) 홍길동 35세, 서울거주, 한국대졸업 =>35세, 서울 거주

(5) 데이터 범주화

- 데이터의 값을 범주의 값으로 변환하여 값을 숨김
예 ) 홍길동, 35 세 => 홍씨, 30~40세

5. 미래의 빅 데이터

1. 빅데이터 활용에 필요한 기본 3 요소

① 데이터 모든 것의 데이터화 (Datafication)

- 수많은 센서 (IoT, CCTV, 센서)들이 인터넷에 연결되는 사물인터넷 시대

- 사물인터넷 (IoT)
* 사물인터넷 (IoT) 은 각종 사물에 센서와 통신 기능을 내장하여 인터넷에 연결하는 기술. 즉, 무선 통신을 통해 각종 사물을 연결하는 기술을 의미한다 . 인터넷으로 연결된 사물들이 데이터를 주고받아 스스로 분석하고 학습한 정보를 사용자에게 제공하거나 사용자가 이를 원격 조정할 수 있는 인공지능 기술이다.

② 기술

- 진화하는 알고리즘 , 인공지능 (Artificial Intelligence)
- 인공지능 > 머신러닝 > 딥러닝

③ 인력

- 데이터 사이언티스트 , 알고리즈미스트 (Algorithmist)

저작자표시 비영리 변경금지

'Study > ADsP' 카테고리의 다른 글

[ADsP 정리] 3. 데이터 분석(1) (0)	2024.05.13
[ADsP 정리] 2. 데이터 분석기획(2) (1)	2024.05.09
[ADsP 정리] 2. 데이터분석 기획 (0)	2024.05.06
[ADsP 정리] 1. 데이터 이해(3) (2)	2024.05.04
[ADsP 정리] 1. 데이터 이해(1) (2)	2024.05.01