이번 시간에는 ADsP 1과목 데이터의 이해에서 1. 데이터의 이해부터 1.3 데이터베이스의 활용에 대해서 알아보겠습니다.
이 정보는 개인 공부 목적으로 작성 되었으며, 혹시 잘못 작성된 부분이 있다면 댓글로 알려주시면 감사하겠습니다.
1. 빅 데이터 분석과 전략 인사이트
1. 빅데이터 열풍과 회의론
① 빅 데이터 회의론의 원인
i) 부정적 학습효과
- 과거의 고객관계관리(CRM), 공포마케팅, 투자대비 효과 별로 없었음
ii) 부적절한 성공사례
- 빅 데이터가 필요없는 분석 사례 기존 CRM 활용
→ 빅데이터 분석 : 데이터에서 가치, 즉 통찰을 끌어내 성과를 창출하는 것이 관건
② 왜 싸이월드는 페이스북이 되지 못했나?
- 데이터 분석 기반 경영 문화의 부재 전략적 분석과 통찰력 창출이 중요
- 싸이월드 퇴보 원인
i) OLAP 와 같은 분석 인프라 존재했지만 중요한 의사결정에 데이터 분석 활용하지 않음
ii) 웹로그 분석을 통한 일차원적인 분석만 집중
iii) 소셜 네트워킹 활동특성과 관련된 분석을 위한 프레임워크나 평가 지표가 없었음
③ 빅데이터 분석, 'Big'이 핵심 아니다.
- 데이터 분석 기반의 통찰이 중요
- 직관에 기초한 의사결정보다 데이터에 기초한 의사결정이 중요 데이터 자체의 중요성
- 더 많은 데이터가 더 많은 가치로 바로 연결되지 않음 과유불급
- 직관에 의한 의사 결정 < 데이터에 기초한 의사 결정 중요
- 정형 데이터 + 비정형 데이터(음성, 텍스트, 이미지, 로그, 비디오) 결합 활용
- 객관적이고 종합적인 통찰을 줄 수 있는 데이터를 찾는 것이 가장 중요
- 전략과 비지니스의 핵심가치에 집중하고 이와 관련된 분석 평가지표를 개발하고 이를 통해 효과적으로
시장과 고객변화에 대응할 수 있을 때 빅데이터 분석은 가치가 有
- 빅데이터와 관련된 걸림돌은 비용이 아니라 분석적 방법과 성과에 대한 이해 부족
④ 전략적 통찰이 없는 분석의 함정
i) 단순히 일차원적 분석 반복
- 해당 업무부서의 업무영역에서는 효과적이나 기업환경 변화와 고객변화에 전략적 대처 불가능
ii) 전략적 통찰에 초점을 맞춰 분석을 활용
- 사업의 중요한 기회 발굴할 수 있음
iii) 최고가 되기 위해서는 일차원적 분석을 통해 분석 경험을 늘리고 작은 성공을 통해 분석의 활용범위를
넓혀 사업성과를 견인할 수 있는 전략 인사이트를 주는 가치 기반 분석단계로 발전해야 함
⑤ 일차적인 분석 vs 전략도출을 위한 가치 기반 분석
i) 일차적 분석
- 업계 내부의 문제, 부서단위로 관리 비즈니스 성공 핵심 역할 못함
- 경쟁에 뒤처지지 않고 변화하는 고객의 기대를 따라잡기 위해 무엇을 해야 할지 알려줌
ii) 전략적 인사이트를 주는 가치 기반 분석
- 사업과 이에 영향을 미치는 트랜드에 대한 큰 그림
- 인구통계학적 변화, 경제 사회 트랜드, 고객 니즈의 변화 등을 고려
- 대변화가 어디서 나타날지도 예측
→ 여러 사업 성과를 견인하는 요소들, 차별화를 이룰 수 있는 기회에 대한 중요한 통찰을 줄 것이다.
2. 전략 인사이트 도출을 위한 필요 역량
1. 데이터 사이언스의 의미
- 데이터사이언스란 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의
전문 지식을 종합한 학문
2. 데이터 사이언스의 구성 요소(3가지)
① 분석적 영역 (Analytics)
- 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등
② IT(Data Management) 영역
- 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅 등
③ 비즈니스 분석
- 커뮤니케이션, 프리젠테이션, 스토리텔링, 시각화 등
3. 데이터 사이언티스트의 요구 역량(2가지)
① 하드 스킬 (Hard Skill)
- 빅 데이터 에 대한 이론적 지식 관련기법에 대한 이해와 방법론 습득
- 데이터 처리나 분석 기술과 관련 숙련된 기술 최적의 분석 설계 및 노하우 축적
② 소프트 스킬 (Soft Skill)
- 통찰력 있는 분석 창의적 사고 호기심 논리적 비판
- 설득력 있는 전달 스토리텔링 비주얼라이제이션
- 다분야간 협력 커뮤니케이션
4. 전략적 통찰력과 인문학의 부활의 원인
① 외부 환경적 측면
- 단순세계 복잡한 세계로의 변화 : 컨버전스 디버전스
- 비즈니스 중심 제품 생산 서비스로 이동 : 생산 서비스 중심
- 경제와 산업의 논리 : 생산 시장창조로 변환 : 공급자 중심 기술 경쟁 무형자산의 경쟁
② 내부 상황적인 측면
- 목표 부재의 아노미
(예) 삼성의 패스트팔로우(fast follow) 전략이 무너짐
- 기존 사고의 틀을 벗어나 문제를 바라보고 해결하는 능력
- 비즈니스의 핵심 가치를 이해하고 고객과 직원의 내면적 요구를 이해하는 능력
5. 데이터분석 모델링에서 인문학적 통찰력의 적용사례(3가지)
① 금융업의 신용 리스크 모델
- 모델의 예측력을 높이기 위해 인간은 어떤 관점에서 바라봐야 하나
- 이를 위해서는 어떤 데이터가 더 필요하며, 어떤 기술을 활용해야 할 것인가? 라는 질문에 중요한
가이드 제공
- 인간을 바라보는 관점(3가지) : 타고난 성향적 관점, 행동적 관점, 상황적 관점
- 최근 신용리스크 모델은 상황적 관점 반영 시도
② 나폴레옹의 리더십 연구
- 유전적 특성(성향적 관점)
- 나폴레옹의 어떤 행동(행동적 관점)
→ 요즘은 고정된 의미의 리더십에서 벗어나 해당 상황 간의 적합성에 의해 결정
③ 인간에 대한 새로운 해석 관점의 제공 외에도 인문학은 고정된 사고방식에서 벗어나 혁신을 생각하고 진부한 상상의 굴레에서 벗어난 창의성을 토대로 남보다 앞서 새로운 가치를 창출 하고자 하는 중요한 가치창출의 원천이 될 수 있음
3. 빅 데이터 그리고 데이터 사이언스의 미래
1. 데이터 사이언스의 의미
- 빅 데이터 분석은 선거결과에 결정적인 영향을 미칠 수도 있고, 기업들에게 비용 절감, 시간 절약, 매출 증대 , 고객 서비스 향상, 신규 비즈니스 창출, 내부 의사결정 지원 등에 있어 상당한 가치를 발휘하고 있음
2. 빅 데이터 회의론을 넘어 가치 패러 다 임의 변화(3단계)
1 단계) 디지털화 (digitalization) : 과거
- 아날로그 세상을 어떻게 효과적으로 디지털화하는가가 과거의 가치 창출 원천
예 ) 빌게이츠
2 단계) 연결 (connection) : 현재
- 디지털화된 정보와 대상들은 서로 연결 시작
- 연결을 더 효과적이고 효율적으로 제공하는가가 성공요인
예) 인터넷, 구글 검색 알고리즘
3 단계) 에이전시 (agency) : 미래
- 복잡한 연결을 얼마나 효과적으로 믿을 수 있게 관리하는가의 이슈
예) 사물인터넷 등장, 복잡한 연결 관리
3. 데이터 사이언스의 한계와 인문학
1) 데이터 사이언스의 한계
- 분석과정에서는 가정 등 인간의 해석이 개입되는 단계를 반드시 거침
- 분석결과가 의미하는 바는 사람에 따라 전혀 다른 해석과 결론을 내릴 수 있음
- 아무리 정량적인 분석이라도 모든 분석은 가정에 근거함
2) 데이터 사이언스와 인문학
- 인문학을 이용하여 빅 데이터 와 데이 터 사이언스가 데이터에 묻혀있는 잠재력을 풀어내고 새로운 기회를
찾고, 누구도 보지 못한 창조의 밑그림을 그릴 수 있는 힘을 발휘하게 될 것
4. 빅 데이터 기술
1) 데이터웨어하우스 (Data Warehouse)
(1) 데이터웨어하우스 정의
- 사용자의 의사 결정에 도움을 주기 위하여 , 기간시스템의 데이터베이스 에 축적된 데이터를 공통의 형식으로 변환해서
관리하는 데이터베이스
- 데이터웨어하우스는 보다 정보에 입각한 의사 결정을 내릴 수 있도록 분석 가능한 정보의 중앙 레포지토리
- 데이터는 트랜잭션 시스템 관계형 데이터베이스 및 기타 소스로부터 보통 정기적으로 데이터 웨어하우스에 해당하며,
비즈니스 애널리스트, 데이터 엔지니어, 데이터 사이언티스트 및 의사 결정권자는 비즈니스 인텔리전스(BI) 도구, SQL
클라이언트 및 기타 분석 응용 프로그램을 통해 데이터에 액세스 함
(2) 데이터웨어하우스의 특성(4가지) 주통시비
- 주제 지향성, 데이터 통합, 데이터의 시계열성, 데이터의 비휘발성
① 주제 지향성 (subject orientation)
- 데이터를 주제별로 구성함으로써 최종 사용자 (end 와 전산에 약한 분석자라도 이해하기 쉬운 형태가 되는 것
② 통합성 (integration)
- 데이터가 데이터 웨어하우스에 들어갈 때는 일관적인 형태 데이터의 일관된 이름짓기, 일관된 변수 측정, 일관된
코드화구조 등 로 변환되는 것
③ 시계열성(time variancy)
- 데이터 웨어하우스의 데이터는 일정 기간 동안 정확성을 나타낸다.
④ 비휘발성(nonvolatilization)
- 데이터 웨어하우스에 일단 데이터가 적재되면 일괄 처리(batch) 작업에 의한 갱신 이외에는 「 Insert 」나 「 Delete 」
등의 변경이 수행되지 않는 특징을 가지게 된다.
(3) 데이터웨어하우스 의 구성
① 데이터 모델(Data Model)
- 주제 중심적으로 구성된 다차원의 개체 관계형(Entity Relation) 모델로 설계
② ETL(Extract, Transform, Load)
- 기업의 내부 또는 외부로부터 데이터를 추출 정제 및 가공하여 데이터웨어하우스에 적재
③ ODS(Operational Data Store)
- 다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리
④ DW 메타 데이터
- 데이터 모델에 대한 스키마 정보와 비즈니스 측면에서 활용되는 정보를 제공
④ OLAP(Online Analytical Processing)
- 사용자가 직접 다차원의 데이터를 확인할 수 있는 솔루션
⑤ 데이터 마이닝(Data Mining)
- 대용량의 데이터로부터 인사이트를 도출할 수 있는 방법론
⑥ 분석 도구
- 데이터 마이닝 을 활용하여 데이터웨어하우스에 적재된 데이터를 분석할 수 있는 도구
⑦ 경영기반 솔루션
- KMS, DSS, BI 와 같은 경영의사결정을 지원하기 위한 솔루션
2) 데이터 레이크(Data Lake)
- 현재 정의된 목적이 없는 비정형 원시 데이터를 저장
- 대규모의 다양한 원시 데이터 세트를 기본 형식으로 저장하는 데이터 리포지토리 유형
- 데이터 레이크는 그 크기가 매우 커질것이고 대부분의 저장소는 스키마가 없는 큰 규모의 구조를 지향하기
때문에 일반적으로 데이터 레이크를 구현을 할 때 Hadoop과 HDFS 를 비롯한 에코시스템을 사용
3) 데이터 마이닝(Data Mining)
- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는
정보를 추출하는 과정이다 . 다른 말로는 KDD(데이터베이스 속의 지식 발견 , knowledge discovery in
databases)라고도 일컫는다.
- 데이터 마이닝은 통계학 에서 패턴 인식 에 이르는 다양한 계량 기법을 사용한다 . 데이터 마이닝 기법은
통계학쪽에서 발전한 탐색적자료분석 , 가설 검정 , 다변량 분석 , 시계열 분석 , 일반선형모형 등의
방법론과 데이터베이스 쪽에서 발전한 OLAP(온라인 분석 처리 :On Line Analytic Processing), 인공지능
진영에서 발전한 SOM 신경망 전문가 시스템 등의 기술적인 방법론이 쓰인다.
4) 빅 데이터 기술 하아스아
(1) 하둡 (Hadoop)
- 대규모 분산 병 렬 처리의 업계 표준으로 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 플랫폼 기술이며,
선형적인 성능과 용량 확장성 , 고장 감내성을 가지고 있다.
- 대규모 분산 병 렬 처리의 업계 표준으로 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 플랫폼 기술이며,
선형적인 성능과 용량 확장성, 고장 감내성을 가지고 있다 .
- 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
- 분산 파일시스템(HDFS)을 통해 수 천대의 장비에 대용량 파일을 저장할 수 있는 기능을 제공하고,
맵리듀스(Map Reduce)로 HDFS에 저장된 대용량의 데이터들을 대상으로 SQL 을 이용하여 사용자의 질의를
실시간으로 처리하는 기술
- 하둡의 부족한 기능을 서로 보완하는 "하둡 에코 시스템"이 등장하여 다양한 솔루션을 제공한다.
(2) 아파치 스파크(Apache Spark)
- 실시간 분산형 컴퓨팅 플랫폼으로써 스칼라로 작성이 되어 있지만 스칼라, 자바, 파이썬, API를 지원한다.
- In-Memory 방식으로 처리를 하기 때문에 하둡에 비해 처리속도가 빠른 것이 특징이다
(3) 스마트 팩토리(Smart Factory)
- 공장 내 설비와 기계에 사물인터넷(IoT)이 설치되어 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이루어짐으로써 생산성을 극대화 할 수 있는 기술
(4) 아마존(Amazon)
- S3와 BC2 환경을 제공함으로써 플랫폼을 위한 클라우드 서비스를 최초로 실현하였다.
'Study > ADsP' 카테고리의 다른 글
[ADsP 정리] 3. 데이터 분석(1) (0) | 2024.05.13 |
---|---|
[ADsP 정리] 2. 데이터 분석기획(2) (0) | 2024.05.09 |
[ADsP 정리] 2. 데이터분석 기획 (0) | 2024.05.06 |
[ADsP 정리] 1. 데이터 이해(2) (0) | 2024.05.02 |
[ADsP 정리] 1. 데이터 이해(1) (2) | 2024.05.01 |