[ADsP 정리] 1. 데이터 이해(3)

Study/ADsP

[ADsP 정리] 1. 데이터 이해(3)

개발자지니!

|2024. 5. 4. 18:21

이번 시간에는 ADsP 1과목 데이터의 이해에서 1. 데이터의 이해부터 1.3 데이터베이스의 활용에 대해서 알아보겠습니다.

이 정보는 개인 공부 목적으로 작성 되었으며, 혹시 잘못 작성된 부분이 있다면 댓글로 알려주시면 감사하겠습니다.

1. 빅 데이터 분석과 전략 인사이트

1. 빅데이터 열풍과 회의론

① 빅 데이터 회의론의 원인

i) 부정적 학습효과

- 과거의 고객관계관리(CRM), 공포마케팅, 투자대비 효과 별로 없었음

ii) 부적절한 성공사례

- 빅 데이터가 필요없는 분석 사례 기존 CRM 활용
→ 빅데이터 분석 : 데이터에서 가치, 즉 통찰을 끌어내 성과를 창출하는 것이 관건

② 왜 싸이월드는 페이스북이 되지 못했나?

- 데이터 분석 기반 경영 문화의 부재 전략적 분석과 통찰력 창출이 중요

- 싸이월드 퇴보 원인

i) OLAP 와 같은 분석 인프라 존재했지만 중요한 의사결정에 데이터 분석 활용하지 않음

ii) 웹로그 분석을 통한 일차원적인 분석만 집중

iii) 소셜 네트워킹 활동특성과 관련된 분석을 위한 프레임워크나 평가 지표가 없었음

③ 빅데이터 분석, 'Big'이 핵심 아니다.

- 데이터 분석 기반의 통찰이 중요

- 직관에 기초한 의사결정보다 데이터에 기초한 의사결정이 중요 데이터 자체의 중요성

- 더 많은 데이터가 더 많은 가치로 바로 연결되지 않음 과유불급

- 직관에 의한 의사 결정 < 데이터에 기초한 의사 결정 중요

- 정형 데이터 + 비정형 데이터(음성, 텍스트, 이미지, 로그, 비디오) 결합 활용

- 객관적이고 종합적인 통찰을 줄 수 있는 데이터를 찾는 것이 가장 중요

- 전략과 비지니스의 핵심가치에 집중하고 이와 관련된 분석 평가지표를 개발하고 이를 통해 효과적으로

시장과 고객변화에 대응할 수 있을 때 빅데이터 분석은 가치가 有

- 빅데이터와 관련된 걸림돌은 비용이 아니라 분석적 방법과 성과에 대한 이해 부족

④ 전략적 통찰이 없는 분석의 함정

i) 단순히 일차원적 분석 반복

- 해당 업무부서의 업무영역에서는 효과적이나 기업환경 변화와 고객변화에 전략적 대처 불가능

ii) 전략적 통찰에 초점을 맞춰 분석을 활용

- 사업의 중요한 기회 발굴할 수 있음

iii) 최고가 되기 위해서는 일차원적 분석을 통해 분석 경험을 늘리고 작은 성공을 통해 분석의 활용범위를

넓혀 사업성과를 견인할 수 있는 전략 인사이트를 주는 가치 기반 분석단계로 발전해야 함

⑤ 일차적인 분석 vs 전략도출을 위한 가치 기반 분석

i) 일차적 분석

- 업계 내부의 문제, 부서단위로 관리 비즈니스 성공 핵심 역할 못함

- 경쟁에 뒤처지지 않고 변화하는 고객의 기대를 따라잡기 위해 무엇을 해야 할지 알려줌

ii) 전략적 인사이트를 주는 가치 기반 분석

- 사업과 이에 영향을 미치는 트랜드에 대한 큰 그림
- 인구통계학적 변화, 경제 사회 트랜드, 고객 니즈의 변화 등을 고려
- 대변화가 어디서 나타날지도 예측

→ 여러 사업 성과를 견인하는 요소들, 차별화를 이룰 수 있는 기회에 대한 중요한 통찰을 줄 것이다.

2. 전략 인사이트 도출을 위한 필요 역량

1. 데이터 사이언스의 의미

- 데이터사이언스란 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의

전문 지식을 종합한 학문

2. 데이터 사이언스의 구성 요소(3가지)

① 분석적 영역 (Analytics)

- 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등

② IT(Data Management) 영역

- 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅 등

③ 비즈니스 분석

- 커뮤니케이션, 프리젠테이션, 스토리텔링, 시각화 등

3. 데이터 사이언티스트의 요구 역량(2가지)

① 하드 스킬 (Hard Skill)

- 빅 데이터 에 대한 이론적 지식 관련기법에 대한 이해와 방법론 습득

- 데이터 처리나 분석 기술과 관련 숙련된 기술 최적의 분석 설계 및 노하우 축적

② 소프트 스킬 (Soft Skill)

- 통찰력 있는 분석 창의적 사고 호기심 논리적 비판

- 설득력 있는 전달 스토리텔링 비주얼라이제이션

- 다분야간 협력 커뮤니케이션

4. 전략적 통찰력과 인문학의 부활의 원인

① 외부 환경적 측면

- 단순세계 복잡한 세계로의 변화 : 컨버전스 디버전스

- 비즈니스 중심 제품 생산 서비스로 이동 : 생산 서비스 중심
- 경제와 산업의 논리 : 생산 시장창조로 변환 : 공급자 중심 기술 경쟁 무형자산의 경쟁

② 내부 상황적인 측면

- 목표 부재의 아노미

(예) 삼성의 패스트팔로우(fast follow) 전략이 무너짐

- 기존 사고의 틀을 벗어나 문제를 바라보고 해결하는 능력
- 비즈니스의 핵심 가치를 이해하고 고객과 직원의 내면적 요구를 이해하는 능력

5. 데이터분석 모델링에서 인문학적 통찰력의 적용사례(3가지)

① 금융업의 신용 리스크 모델

- 모델의 예측력을 높이기 위해 인간은 어떤 관점에서 바라봐야 하나

- 이를 위해서는 어떤 데이터가 더 필요하며, 어떤 기술을 활용해야 할 것인가? 라는 질문에 중요한

가이드 제공
- 인간을 바라보는 관점(3가지) : 타고난 성향적 관점, 행동적 관점, 상황적 관점

- 최근 신용리스크 모델은 상황적 관점 반영 시도

② 나폴레옹의 리더십 연구

- 유전적 특성(성향적 관점)

- 나폴레옹의 어떤 행동(행동적 관점)
→ 요즘은 고정된 의미의 리더십에서 벗어나 해당 상황 간의 적합성에 의해 결정

③ 인간에 대한 새로운 해석 관점의 제공 외에도 인문학은 고정된 사고방식에서 벗어나 혁신을 생각하고 진부한 상상의 굴레에서 벗어난 창의성을 토대로 남보다 앞서 새로운 가치를 창출 하고자 하는 중요한 가치창출의 원천이 될 수 있음

3. 빅 데이터 그리고 데이터 사이언스의 미래

1. 데이터 사이언스의 의미

- 빅 데이터 분석은 선거결과에 결정적인 영향을 미칠 수도 있고, 기업들에게 비용 절감, 시간 절약, 매출 증대 , 고객 서비스 향상, 신규 비즈니스 창출, 내부 의사결정 지원 등에 있어 상당한 가치를 발휘하고 있음

2. 빅 데이터 회의론을 넘어 가치 패러 다 임의 변화(3단계)

1 단계) 디지털화 (digitalization) : 과거

- 아날로그 세상을 어떻게 효과적으로 디지털화하는가가 과거의 가치 창출 원천

예 ) 빌게이츠

2 단계) 연결 (connection) : 현재

- 디지털화된 정보와 대상들은 서로 연결 시작
- 연결을 더 효과적이고 효율적으로 제공하는가가 성공요인

예) 인터넷, 구글 검색 알고리즘

3 단계) 에이전시 (agency) : 미래

- 복잡한 연결을 얼마나 효과적으로 믿을 수 있게 관리하는가의 이슈

예) 사물인터넷 등장, 복잡한 연결 관리

3. 데이터 사이언스의 한계와 인문학

1) 데이터 사이언스의 한계

- 분석과정에서는 가정 등 인간의 해석이 개입되는 단계를 반드시 거침

- 분석결과가 의미하는 바는 사람에 따라 전혀 다른 해석과 결론을 내릴 수 있음

- 아무리 정량적인 분석이라도 모든 분석은 가정에 근거함

2) 데이터 사이언스와 인문학

- 인문학을 이용하여 빅 데이터 와 데이 터 사이언스가 데이터에 묻혀있는 잠재력을 풀어내고 새로운 기회를

찾고, 누구도 보지 못한 창조의 밑그림을 그릴 수 있는 힘을 발휘하게 될 것

4. 빅 데이터 기술

1) 데이터웨어하우스 (Data Warehouse)

(1) 데이터웨어하우스 정의

- 사용자의 의사 결정에 도움을 주기 위하여 , 기간시스템의 데이터베이스 에 축적된 데이터를 공통의 형식으로 변환해서

관리하는 데이터베이스

- 데이터웨어하우스는 보다 정보에 입각한 의사 결정을 내릴 수 있도록 분석 가능한 정보의 중앙 레포지토리

- 데이터는 트랜잭션 시스템 관계형 데이터베이스 및 기타 소스로부터 보통 정기적으로 데이터 웨어하우스에 해당하며,

비즈니스 애널리스트, 데이터 엔지니어, 데이터 사이언티스트 및 의사 결정권자는 비즈니스 인텔리전스(BI) 도구, SQL

클라이언트 및 기타 분석 응용 프로그램을 통해 데이터에 액세스 함

(2) 데이터웨어하우스의 특성(4가지) 주통시비

- 주제 지향성, 데이터 통합, 데이터의 시계열성, 데이터의 비휘발성

① 주제 지향성 (subject orientation)
- 데이터를 주제별로 구성함으로써 최종 사용자 (end 와 전산에 약한 분석자라도 이해하기 쉬운 형태가 되는 것

② 통합성 (integration)
- 데이터가 데이터 웨어하우스에 들어갈 때는 일관적인 형태 데이터의 일관된 이름짓기, 일관된 변수 측정, 일관된

코드화구조 등 로 변환되는 것

③ 시계열성(time variancy)

- 데이터 웨어하우스의 데이터는 일정 기간 동안 정확성을 나타낸다.

④ 비휘발성(nonvolatilization)
- 데이터 웨어하우스에 일단 데이터가 적재되면 일괄 처리(batch) 작업에 의한 갱신 이외에는 「 Insert 」나 「 Delete 」

등의 변경이 수행되지 않는 특징을 가지게 된다.

(3) 데이터웨어하우스 의 구성

① 데이터 모델(Data Model)

- 주제 중심적으로 구성된 다차원의 개체 관계형(Entity Relation) 모델로 설계

② ETL(Extract, Transform, Load)

- 기업의 내부 또는 외부로부터 데이터를 추출 정제 및 가공하여 데이터웨어하우스에 적재

③ ODS(Operational Data Store)

- 다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리

④ DW 메타 데이터

- 데이터 모델에 대한 스키마 정보와 비즈니스 측면에서 활용되는 정보를 제공

④ OLAP(Online Analytical Processing)

- 사용자가 직접 다차원의 데이터를 확인할 수 있는 솔루션

⑤ 데이터 마이닝(Data Mining)

- 대용량의 데이터로부터 인사이트를 도출할 수 있는 방법론

⑥ 분석 도구

- 데이터 마이닝 을 활용하여 데이터웨어하우스에 적재된 데이터를 분석할 수 있는 도구
⑦ 경영기반 솔루션

- KMS, DSS, BI 와 같은 경영의사결정을 지원하기 위한 솔루션

2) 데이터 레이크(Data Lake)

- 현재 정의된 목적이 없는 비정형 원시 데이터를 저장

- 대규모의 다양한 원시 데이터 세트를 기본 형식으로 저장하는 데이터 리포지토리 유형

- 데이터 레이크는 그 크기가 매우 커질것이고 대부분의 저장소는 스키마가 없는 큰 규모의 구조를 지향하기

때문에 일반적으로 데이터 레이크를 구현을 할 때 Hadoop과 HDFS 를 비롯한 에코시스템을 사용

3) 데이터 마이닝(Data Mining)

- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는

정보를 추출하는 과정이다 . 다른 말로는 KDD(데이터베이스 속의 지식 발견 , knowledge discovery in

databases)라고도 일컫는다.

- 데이터 마이닝은 통계학 에서 패턴 인식 에 이르는 다양한 계량 기법을 사용한다 . 데이터 마이닝 기법은

통계학쪽에서 발전한 탐색적자료분석 , 가설 검정 , 다변량 분석 , 시계열 분석 , 일반선형모형 등의

방법론과 데이터베이스 쪽에서 발전한 OLAP(온라인 분석 처리 :On Line Analytic Processing), 인공지능

진영에서 발전한 SOM 신경망 전문가 시스템 등의 기술적인 방법론이 쓰인다.

4) 빅 데이터 기술 하아스아

(1) 하둡 (Hadoop)

- 대규모 분산 병 렬 처리의 업계 표준으로 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 플랫폼 기술이며,

선형적인 성능과 용량 확장성 , 고장 감내성을 가지고 있다.
- 대규모 분산 병 렬 처리의 업계 표준으로 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 플랫폼 기술이며,

선형적인 성능과 용량 확장성, 고장 감내성을 가지고 있다 .
- 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
- 분산 파일시스템(HDFS)을 통해 수 천대의 장비에 대용량 파일을 저장할 수 있는 기능을 제공하고,

맵리듀스(Map Reduce)로 HDFS에 저장된 대용량의 데이터들을 대상으로 SQL 을 이용하여 사용자의 질의를

실시간으로 처리하는 기술

- 하둡의 부족한 기능을 서로 보완하는 "하둡 에코 시스템"이 등장하여 다양한 솔루션을 제공한다.

(2) 아파치 스파크(Apache Spark)

- 실시간 분산형 컴퓨팅 플랫폼으로써 스칼라로 작성이 되어 있지만 스칼라, 자바, 파이썬, API를 지원한다.

- In-Memory 방식으로 처리를 하기 때문에 하둡에 비해 처리속도가 빠른 것이 특징이다

(3) 스마트 팩토리(Smart Factory)

- 공장 내 설비와 기계에 사물인터넷(IoT)이 설치되어 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이루어짐으로써 생산성을 극대화 할 수 있는 기술

(4) 아마존(Amazon)

- S3와 BC2 환경을 제공함으로써 플랫폼을 위한 클라우드 서비스를 최초로 실현하였다.

저작자표시 비영리 변경금지

'Study > ADsP' 카테고리의 다른 글

[ADsP 정리] 3. 데이터 분석(1) (0)	2024.05.13
[ADsP 정리] 2. 데이터 분석기획(2) (0)	2024.05.09
[ADsP 정리] 2. 데이터분석 기획 (0)	2024.05.06
[ADsP 정리] 1. 데이터 이해(2) (0)	2024.05.02
[ADsP 정리] 1. 데이터 이해(1) (2)	2024.05.01

1. 빅 데이터 분석과 전략 인사이트
1. 1. 빅데이터 열풍과 회의론
2. 전략 인사이트 도출을 위한 필요 역량
3. 빅 데이터 그리고 데이터 사이언스의 미래

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`