728x90
 

이번 시간에는 ADsP 1과목 데이터의 이해에서 1. 데이터의 이해부터 1.3 데이터베이스의 활용에 대해서 알아보겠습니다. 

이 정보는 개인 공부 목적으로 작성 되었으며, 혹시 잘못 작성된 부분이 있다면 댓글로 알려주시면 감사하겠습니다.


1. 빅 데이터 분석과 전략 인사이트

1. 빅데이터 열풍과 회의론

① 빅 데이터 회의론의 원인

i) 부정적 학습효과

  - 과거의 고객관계관리(CRM), 공포마케팅, 투자대비 효과 별로 없었음

 

ii) 부적절한 성공사례

  - 빅 데이터가 필요없는 분석 사례 기존 CRM 활용
  → 빅데이터 분석 : 데이터에서 가치, 즉 통찰을 끌어내 성과를 창출하는 것이 관건

 

② 왜 싸이월드는 페이스북이 되지 못했나?

  - 데이터 분석 기반 경영 문화의 부재 전략적 분석과 통찰력 창출이 중요

  - 싸이월드 퇴보 원인

    i) OLAP 와 같은 분석 인프라 존재했지만 중요한 의사결정에 데이터 분석 활용하지 않음

    ii) 웹로그 분석을 통한 일차원적인 분석만 집중

    iii) 소셜 네트워킹 활동특성과 관련된 분석을 위한 프레임워크나 평가 지표가 없었음

 

③ 빅데이터 분석, 'Big'이 핵심 아니다.

  - 데이터 분석 기반의 통찰이 중요

  - 직관에 기초한 의사결정보다 데이터에 기초한 의사결정이 중요 데이터 자체의 중요성

  - 더 많은 데이터가 더 많은 가치로 바로 연결되지 않음 과유불급

  - 직관에 의한 의사 결정 < 데이터에 기초한 의사 결정 중요

  - 정형 데이터 + 비정형 데이터(음성, 텍스트, 이미지, 로그, 비디오) 결합 활용

  - 객관적이고 종합적인 통찰을 줄 수 있는 데이터를 찾는 것이 가장 중요

  - 전략과 비지니스의 핵심가치에 집중하고 이와 관련된 분석 평가지표를 개발하고 이를 통해 효과적으로

    시장과 고객변화에 대응할 수 있을 때 빅데이터 분석은 가치가 有

  - 빅데이터와 관련된 걸림돌은 비용이 아니라 분석적 방법과 성과에 대한 이해 부족

 

④ 전략적 통찰이 없는 분석의 함정

  i) 단순히 일차원적 분석 반복

    - 해당 업무부서의 업무영역에서는 효과적이나 기업환경 변화와 고객변화에 전략적 대처 불가능

 

  ii) 전략적 통찰에 초점을 맞춰 분석을 활용

    - 사업의 중요한 기회 발굴할 수 있음

 

  iii) 최고가 되기 위해서는 일차원적 분석을 통해 분석 경험을 늘리고 작은 성공을 통해 분석의 활용범위를

      넓혀 사업성과를 견인할 수 있는 전략 인사이트를 주는 가치 기반 분석단계로 발전해야 함

 

⑤ 일차적인 분석 vs 전략도출을 위한 가치 기반 분석

  i) 일차적 분석

    - 업계 내부의 문제, 부서단위로 관리 비즈니스 성공 핵심 역할 못함

    - 경쟁에 뒤처지지 않고 변화하는 고객의 기대를 따라잡기 위해 무엇을 해야 할지 알려줌

 

  ii) 전략적 인사이트를 주는 가치 기반 분석

    - 사업과 이에 영향을 미치는 트랜드에 대한 큰 그림
    - 인구통계학적 변화, 경제 사회 트랜드, 고객 니즈의 변화 등을 고려
    - 대변화가 어디서 나타날지도 예측

    → 여러 사업 성과를 견인하는 요소들, 차별화를 이룰 수 있는 기회에 대한 중요한 통찰을 줄 것이다.

 

2. 전략 인사이트 도출을 위한 필요 역량

1. 데이터 사이언스의 의미

- 데이터사이언스란 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의

  전문 지식을 종합한 학문

 

2. 데이터 사이언스의 구성 요소(3가지)

① 분석적 영역 (Analytics)

  - 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등

 

② IT(Data Management) 영역

  - 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅 등

 

③ 비즈니스 분석

  - 커뮤니케이션, 프리젠테이션, 스토리텔링, 시각화 등

 

3. 데이터 사이언티스트의 요구 역량(2가지)

① 하드 스킬 (Hard Skill)

  - 빅 데이터 에 대한 이론적 지식 관련기법에 대한 이해와 방법론 습득

  - 데이터 처리나 분석 기술과 관련 숙련된 기술 최적의 분석 설계 및 노하우 축적

 

② 소프트 스킬 (Soft Skill)

  - 통찰력 있는 분석 창의적 사고 호기심 논리적 비판

  - 설득력 있는 전달 스토리텔링 비주얼라이제이션

  - 다분야간 협력 커뮤니케이션

 

4. 전략적 통찰력과 인문학의 부활의 원인

① 외부 환경적 측면

  - 단순세계 복잡한 세계로의 변화 : 컨버전스 디버전스

  - 비즈니스 중심 제품 생산 서비스로 이동 : 생산 서비스 중심
  - 경제와 산업의 논리 : 생산 시장창조로 변환 : 공급자 중심 기술 경쟁 무형자산의 경쟁

 

② 내부 상황적인 측면

  - 목표 부재의 아노미

    (예) 삼성의 패스트팔로우(fast follow) 전략이 무너짐

  - 기존 사고의 틀을 벗어나 문제를 바라보고 해결하는 능력
  - 비즈니스의 핵심 가치를 이해하고 고객과 직원의 내면적 요구를 이해하는 능력

 

5. 데이터분석 모델링에서 인문학적 통찰력의 적용사례(3가지)

① 금융업의 신용 리스크 모델

  - 모델의 예측력을 높이기 위해 인간은 어떤 관점에서 바라봐야 하나

  - 이를 위해서는 어떤 데이터가 더 필요하며, 어떤 기술을 활용해야 할 것인가? 라는 질문에 중요한

    가이드 제공
  - 인간을 바라보는 관점(3가지) : 타고난 성향적 관점, 행동적 관점, 상황적 관점

  - 최근 신용리스크 모델은 상황적 관점 반영 시도

 

② 나폴레옹의 리더십 연구

  - 유전적 특성(성향적 관점)

  - 나폴레옹의 어떤 행동(행동적 관점)
  → 요즘은 고정된 의미의 리더십에서 벗어나 해당 상황 간의 적합성에 의해 결정

 

③ 인간에 대한 새로운 해석 관점의 제공 외에도 인문학은 고정된 사고방식에서 벗어나 혁신을 생각하고 진부한 상상의 굴레에서 벗어난 창의성을 토대로 남보다 앞서 새로운 가치를 창출 하고자 하는 중요한 가치창출의 원천이 될 수 있음

 

3. 빅 데이터 그리고 데이터 사이언스의 미래

1. 데이터 사이언스의 의미

- 빅 데이터 분석은 선거결과에 결정적인 영향을 미칠 수도 있고, 기업들에게 비용 절감, 시간 절약, 매출 증대 , 고객 서비스 향상, 신규 비즈니스 창출, 내부 의사결정 지원 등에 있어 상당한 가치를 발휘하고 있음


2. 빅 데이터 회의론을 넘어 가치 패러 다 임의 변화(3단계)

1 단계) 디지털화 (digitalization) : 과거

  - 아날로그 세상을 어떻게 효과적으로 디지털화하는가가 과거의 가치 창출 원천

    예 ) 빌게이츠

 

2 단계) 연결 (connection) : 현재

  - 디지털화된 정보와 대상들은 서로 연결 시작
  - 연결을 더 효과적이고 효율적으로 제공하는가가 성공요인

    예) 인터넷, 구글 검색 알고리즘

 

3 단계) 에이전시 (agency) : 미래

  - 복잡한 연결을 얼마나 효과적으로 믿을 수 있게 관리하는가의 이슈

    예) 사물인터넷 등장, 복잡한 연결 관리

 

3. 데이터 사이언스의 한계와 인문학

1) 데이터 사이언스의 한계

  - 분석과정에서는 가정 등 인간의 해석이 개입되는 단계를 반드시 거침

  - 분석결과가 의미하는 바는 사람에 따라 전혀 다른 해석과 결론을 내릴 수 있음

  - 아무리 정량적인 분석이라도 모든 분석은 가정에 근거함

 

2) 데이터 사이언스와 인문학

  - 인문학을 이용하여 빅 데이터 와 데이 터 사이언스가 데이터에 묻혀있는 잠재력을 풀어내고 새로운 기회를

    찾고, 누구도 보지 못한 창조의 밑그림을 그릴 수 있는 힘을 발휘하게 될 것

 

 

4. 빅 데이터 기술

1) 데이터웨어하우스 (Data Warehouse)

(1) 데이터웨어하우스 정의

  - 사용자의 의사 결정에 도움을 주기 위하여 , 기간시스템의 데이터베이스 에 축적된 데이터를 공통의 형식으로 변환해서

    관리하는 데이터베이스

  - 데이터웨어하우스는 보다 정보에 입각한 의사 결정을 내릴 수 있도록 분석 가능한 정보의 중앙 레포지토리

  - 데이터는 트랜잭션 시스템 관계형 데이터베이스 및 기타 소스로부터 보통 정기적으로 데이터 웨어하우스에 해당하며,

    비즈니스 애널리스트, 데이터 엔지니어, 데이터 사이언티스트 및 의사 결정권자는 비즈니스 인텔리전스(BI) 도구, SQL

    클라이언트 및 기타 분석 응용 프로그램을 통해 데이터에 액세스 함

 

(2) 데이터웨어하우스의 특성(4가지) 주통시비

  - 주제 지향성, 데이터 통합, 데이터의 시계열성, 데이터의 비휘발성

  ① 주제 지향성 (subject orientation)
    - 데이터를 주제별로 구성함으로써 최종 사용자 (end 와 전산에 약한 분석자라도 이해하기 쉬운 형태가 되는 것

 

  ② 통합성 (integration)
    - 데이터가 데이터 웨어하우스에 들어갈 때는 일관적인 형태 데이터의 일관된 이름짓기, 일관된 변수 측정, 일관된

      코드화구조 등 로 변환되는 것

 

  ③ 시계열성(time variancy)

    - 데이터 웨어하우스의 데이터는 일정 기간 동안 정확성을 나타낸다.

 

  ④ 비휘발성(nonvolatilization)
    - 데이터 웨어하우스에 일단 데이터가 적재되면 일괄 처리(batch) 작업에 의한 갱신 이외에는 「 Insert 」나 「 Delete 」

      등의 변경이 수행되지 않는 특징을 가지게 된다.

 

(3) 데이터웨어하우스 의 구성

  ① 데이터 모델(Data Model)

    - 주제 중심적으로 구성된 다차원의 개체 관계형(Entity Relation) 모델로 설계

  ② ETL(Extract, Transform, Load)

    - 기업의 내부 또는 외부로부터 데이터를 추출 정제 및 가공하여 데이터웨어하우스에 적재

  ③ ODS(Operational Data Store)

    - 다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리

  ④ DW 메타 데이터

    - 데이터 모델에 대한 스키마 정보와 비즈니스 측면에서 활용되는 정보를 제공

  ④ OLAP(Online Analytical Processing)

    - 사용자가 직접 다차원의 데이터를 확인할 수 있는 솔루션

  ⑤ 데이터 마이닝(Data Mining)

    - 대용량의 데이터로부터 인사이트를 도출할 수 있는 방법론

  ⑥ 분석 도구

    - 데이터 마이닝 을 활용하여 데이터웨어하우스에 적재된 데이터를 분석할 수 있는 도구
  ⑦ 경영기반 솔루션

    - KMS, DSS, BI 와 같은 경영의사결정을 지원하기 위한 솔루션

 

2) 데이터 레이크(Data Lake)

  - 현재 정의된 목적이 없는 비정형 원시 데이터를 저장

  - 대규모의 다양한 원시 데이터 세트를 기본 형식으로 저장하는 데이터 리포지토리 유형

  - 데이터 레이크는 그 크기가 매우 커질것이고 대부분의 저장소는 스키마가 없는 큰 규모의 구조를 지향하기

    때문에 일반적으로 데이터 레이크를 구현을 할 때 Hadoop과 HDFS 를 비롯한 에코시스템을 사용

 

3) 데이터 마이닝(Data Mining)

  - 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는

    정보를 추출하는 과정이다 . 다른 말로는 KDD(데이터베이스 속의 지식 발견 , knowledge discovery in

    databases)라고도 일컫는다.

  - 데이터 마이닝은 통계학 에서 패턴 인식 에 이르는 다양한 계량 기법을 사용한다 . 데이터 마이닝 기법은

    통계학쪽에서 발전한 탐색적자료분석 , 가설 검정 , 다변량 분석 , 시계열 분석 , 일반선형모형 등의

    방법론과 데이터베이스 쪽에서 발전한 OLAP(온라인 분석 처리 :On Line Analytic Processing), 인공지능

    진영에서 발전한 SOM 신경망 전문가 시스템 등의 기술적인 방법론이 쓰인다.

 

4) 빅 데이터 기술 하아스아

(1) 하둡 (Hadoop)

  - 대규모 분산 병 렬 처리의 업계 표준으로 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 플랫폼 기술이며,

    선형적인 성능과 용량 확장성 , 고장 감내성을 가지고 있다.
  - 대규모 분산 병 렬 처리의 업계 표준으로 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 플랫폼 기술이며,

    선형적인 성능과 용량 확장성, 고장 감내성을 가지고 있다 .
  - 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
  - 분산 파일시스템(HDFS)을 통해 수 천대의 장비에 대용량 파일을 저장할 수 있는 기능을 제공하고,

    맵리듀스(Map Reduce)로 HDFS에 저장된 대용량의 데이터들을 대상으로 SQL 을 이용하여 사용자의 질의를

    실시간으로 처리하는 기술

  - 하둡의 부족한 기능을 서로 보완하는 "하둡 에코 시스템"이 등장하여 다양한 솔루션을 제공한다.

 

(2) 아파치 스파크(Apache Spark)

  - 실시간 분산형 컴퓨팅 플랫폼으로써 스칼라로 작성이 되어 있지만 스칼라, 자바, 파이썬, API를 지원한다.

  - In-Memory 방식으로 처리를 하기 때문에 하둡에 비해 처리속도가 빠른 것이 특징이다

 

(3) 스마트 팩토리(Smart Factory)

  - 공장 내 설비와 기계에 사물인터넷(IoT)이 설치되어 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이루어짐으로써 생산성을 극대화 할 수 있는 기술

 

(4) 아마존(Amazon)

  - S3와 BC2 환경을 제공함으로써 플랫폼을 위한 클라우드 서비스를 최초로 실현하였다.

 

300x250