728x90

1. 분석 기획 방향성 도출

1. 분석 기획의 특징

1) 분석 기획

  - 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업

2) 데이터 사이언티스트의 역량

  - 수학/통계학적 지식, 정보기술(IT기술, 해킹기술, 통신기술 등), 비즈니스에 대한 이해와 전문성

 

2. 분석에서 가장 중요한 요소

Data + Analytics Model(분석 모델) + Analyst(분석가) ⇒ Value(가치 창출)

 

3. 분석 기획 구분(2가지) – 목표 시점별

① 분석 과제 발굴(단기)

  - 분석과제의 목표를 달성하기 위해 필요 요건 정의

② 분석 마스터플랜(중장기)

  - 지속적인 분석과제 수행을 지원하기 위한 분석지원 거버넌스 체계를 도출(조직/프로세스/인프라/조직문화등 제반 환경)

 

4. 분석 대상과 방법에 따른 분석 주제(4가지)

분석방법(How) 분석의 대상(What)
  Known Un-Known
Known Optimization(최적화) Insight(통찰)
Un-Known Solution(솔루션) Discovery(발견)

① What Known/How Known

  - 해결해야 할 문제 알고 분석의 방법도 알려짐 → 개선을 통한 최적화(Optimization)

② What Known/How Un-Known

  - 해결해야 할 문제 알고 있으나 분석의 방법을 모름 → 솔루션(Solution)을 찾아내는 방식으로 수행

③ What Un-Known/How Known

  - 해결해야 할 문제 모르나 분석의 방법을 알려짐 → 기존 분석 방법을 활용하여 새로운 지식인 통찰(Insight)을 도출

④ What un-Known/How Un-Known

  - 해결해야 할 문제 모르고 분석의 방법도 모름 → 발견(Discovery) 접근법으로 분석의 대상 자체를 새롭게 도출

 

5. 목표 시점 별 분석 기획 방안(2가지)

분석 과제(단기)   분석 마스터(중장기)
당면한 분석 주제의 해결
(과제 단위)
지속적 분석 문화 내재화
(마스터플랜 단위)
Speed & Test 1차 목표 Accuracy & Deploy
Quick-Win 과제의 유형 Long Term View
Problem Solving 접근 방식 Problem Definition

 

6. 분석 기획 시 고려사항(3가지)

① 가용할 데이터에 대한 고려 필요

  i) 데이터 확보가 우선

  ii) 데이터 유형에 대한 분석이 선행

    - 데이터의 유형 : 정형데이터, 비정형데이터, 반정형데이터

데이터 유형 정의 형태 연산 저장 수집
난이도
필요기술
정형 데이터 고정된 필드(형태)가 존재 O O RDB 낮다 SQL RDB,
스프레드시트,
CSV,
반정형 데이터 센서에서 스트리밍되는 머신 데이터 O X 파일 중간 파싱기술
(API제공)
XML,
HTML,
JSON,
웹로그
비정형 데이터 형태가 정해지지 않은 데이터 X X NoSQL 높다 텍슨트마이닝,
파싱기술
SNS,영상,
이미지,
텍스트,
Email,보고서

 

② 분석을 통해서 가치가 창출될 수 있는 적절한 활용방안과 활용 가능한 유스케이스 탐색이 필요

  - “바퀴는 재발명 하지 마라” → 기존의 유사분석 시나리오, 솔루션을 최대한 활용

③ 분석과제 수행을 위한 장애요소에 대한 사전계획수립 필요

 

2. 분석 방법론

1. 분석 방법론의 구성 요소

① 절차(Procedures)

② 방법(Methods)

③ 도구와 기법(Tools & Techniques)

④ 템플릿과 산출물(Templates & Outputs)

 

2. 기업의 합리적 의사 결정 장애요소(3)

① 고정관념(Stereotype)

② 편향된 생각(Bias)

③ 프레이밍 효과(Framing Effect)

  - 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는

현상

 

3. 방법론의 생성 과정

 

4. 방법론의 적용 업무의 특성에 따른 모델(3가지)

① 폭포수형 모델(Waterfall Model) : 하향식(Top-Down)

  - 단계를 순차적으로 진행하는 방법으로, 이전 단계가 완료되어야 다음 단계로 진행할 수 있다.

  - 하향식(Top-Down)으로 진행

  - 문제나 개선 사항이 발견되면 전 단계로 돌아가는 피드백(Feedback) 과정이 수행되기도 한다.

② 프로토타입 모델(Prototype Model) : 상향식(Bottom-Up)

  - 폭포수 모델의 단점을 보안

  - 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해 보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법

  - 상향식(Bottom-Up) 방법

 

③ 나선형 모델(Spiral Model) : 상향식(Bottom-Up)

  - 반복을 통하여 집중적으로 개발하는 방법

  - 상향식(Bottom-Up) 방법

  - 처음 시도하는 프로젝트에 적용이 용이

  - 반복에 대한 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려움

 

[분석 방법론(3가지)]

① KDD 분석 방법론

② CRISP-DM 분석 방법론

③ 빅데이터 분석 방법론

 

5. KDD 분석 방법론 – 데이터에]서 패턴을 찾는 과정

① 데이터 셋 선택(Selection)=추출

  - 비즈니스 도메인에 대한 이해, 프로젝트 목표를 정확하게 설정

  - 데이터 마이닝에 필요한 목표 데이터(Target Data)를 구성

② 데이터 전처리(Preprocessing)

  - 데이터 셋에 포함되어 있는 잡음(Noise), 이상값(Outlier), 결측치(Missing Value)를 식별하고, 필요시 제거하거나 의미 있는 데이터로 처리하는 데이터 셋 정제작업을 시행

③ 데이터 변환(Transformation)

  - 분석 목적에 맞는 변수를 선택하거나 데이터 차원을 축소하여 데이터 마이닝을 효율적으로 적용될 수 있도록 데이터 셋을 변경하는 프로세스를 수행

  - 학습용 데이터/검증용 데이터(7:3, 8:2, 6:4)로 데이터 분리하는 단계 => 홀드 아웃(Hold Out)

④ 데이터 마이닝(Data Mining) = 기계학습(머신러닝)

  - 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 데이터 마이닝 알고리즘을 선택하여 데이터의 패턴을 찾거나 데이터를 분류 또는 예측 등의 마이닝 작업을 시행

⑤ 데이터 마이닝 결과 평가(Interpretation/Evaluation)

  - 데이터 마이닝 결과에 대한 해석과 평가 그리고 분석 목적과의 일치성을 확인

  - 발견된 지식을 업무에 활용하기 위한 방안을 찾는다.

 

6. CRISP-DM 분석 방법론 : 4레벨, 6단계 프로세스

- CRISP-DM(Cross Industry Standard Process for Data Mining)

- 1996 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작

- 계층적 프로세스 모델(Hierachical Process Model) : 4레벨 구조, 6단계 프로세스

 

1) CRISP-DM 4레벨 구조

① 단계(Phases)

  - 일반화 태스크(Generic Tasks)를 포함

② 일반화 태스크

  - 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위 (예) 데이터 정제

③ 세분화 태스크

  - 일반화 태스크를 구체적으로 수행하는 레벨 (예) 범주형 데이터 정제, 연속형 데이터 정제 등

④ 프로세스 실행

  - 데이터 마이닝을 위한 구체적인 실행을 포함9

 

2) CRISP-DM 6단계 프로세스

: 업무이해 → 데이터이해 → 데이터 준비 → 모델링 → 평가 → 전개

- 단계 간 피드백(Feedback)을 통하여 단계별 완성도를 높인다.

  (2개의 피드백 : 업무이해 ↹ 데이터이해, 데이터준비 ↹ 모델링)

① 업무 이해(Business Understanding)

  - 비즈니스 관점에서 프로젝트 목적과 요구사항을 이해하기 위한 단계

  - 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립

 

② 데이터 이해(Data Understanding)

  - 분석을 위한 데이터를 수집, 데이터 속성을 이해 과정

  - 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

 

데이터 준비(Data Preparation)

  - 수집된 데이터에서 분석기법에 적합한 데이터셋을 편성하는 단계, 많은 시간이 소요

  - 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅

 

④ 모델링(Modeling)

  - 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계

  - 데이터 셋이 추가로 필요한 경우 데이터 준비단계를 반복 수행할 수 있다.

  - 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가

 

⑤ 평가(Evaluation)

  - 모델이 프로젝트 목적에 부합하는지를 평가

  - 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단

  - 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가

 

⑥ 전개(Deployment)

  - 실 업무에 적용하기 위한 계획을 수립하고 모니터링과 모델의 유지보수 계획을 마련

  - 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

 

7. 빅데이터 분석 방법론: 3계층, 5단계 프로세스로 구성

1) 빅데이터 분석 방법론의 3계층 구조

① 단계(Phases)

  - 최상위 계층, 프로세스 그룹(Process Group)을 통하여 완성된 단계별 산출물이 생성

  - 기준선(Baseline)으로 설정되어 관리되어야 하며 버전 관리 등을 통하여 통제가 이루어져야 함.

  - 여러 개의 태스크로 구성

 

② 태스크(Task)

  - 단계를 구성하는 단위 활동

  - 물리적 또는 논리적 단위로 품질검토의 항목

 

③ 스텝(Step)

  - WBS(Work Breakdown Structure)의 워크 패키지에 해당

  - 입력자료(Input), 처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)11

 

2) 빅데이터 분석 방법론 프로세스 5단계

① 분석 기획(Planning) 단계

  - 비즈니스 이해 및 범위 설정 → 프로젝트 정의 및 계획 수립 → 프로젝트 위험계획 수립

  - 비즈니스를 이해하고 도메인의 문제점을 파악하여 빅데이터 분석 프로젝트의 범위를 확장하는 단계

  - 프로젝트 정의 및 수행계획을 구체적이고 상세하게 수립하여 향후 프로젝트 진행의 기준선이 되도록 준비

  - 태스크(Task): 1) 비즈니스 이해 및 프로젝트 범위 설정

                           2) 프로젝트 정의 및 수행 계획 수립

                           3) 프로젝트 위험계획 수립12

  - 위험 대응 계획 수립은 예상되는 위험에 대해 회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(Accept)으로 구분하여 위험 관리 계획서를 작성한다.

  - 프로젝트 범위 정의서(SOW), 프로젝트 정의서(WBS) 작성 - 프로젝트 위험계획 수립

 

② 데이터 준비(Preparing) 단계

  - 필요 데이터 정의 → 데이터 스토어 설계 → 데이터 수집 및 정합성 점검

  - 비즈니스 요구사항을 데이터 차원에서 다시 파악

  - 프로젝트별로 필요로 하는 데이터를 정의하여 전사 차원의 데이터 스토어(Data Store)를 준비

  - 데이터 수집 저장 시 ETL(Extract Transform Load) 등의 다양한 도구를 사용

  - 데이터 품질 확보를 위해 품질 통제와 품질보증 프로세스 수행

  - 태스크(Task) : 필요한 데이터 정의 → 데이터 스토어 설계 → 데이터 수집 및 정합성 점검

  - 필요한 데이터 정의 : 데이터 정의서 작성(전사차원에서 필요한 데이터, 정형‧비정형‧반정형등의 모든 내‧외부 데이터)

 

③ 데이터 분석(Analyzing) 단계

  - 분석용 데이터 준비 → 텍스트 분석 → 탐색적 분석 → 모델링 → 모델 평가 및 검증

  - 데이터 스토어에서 분석에 필요한 데이터셋을 준비하고 탐색적 분석, 모델링과 모델 평가 태스크를 진행

  - 비정형 테스트 데이터가 존재

  → 분석기법(텍스트 마이닝, 텍스트 분류 등)

  → 알고리즘을 이용하여 비정형 분석 실시

  → 필요 시 정형 데이터와 결합 → 통합 모델링을 수행

  - 분석에 필요한 충분한 데이터 확보를 위해서 데이터 준비 단계를 반복하여 수행(피드백)

  - 태스크(Task) : 분석용 데이터 준비 → 텍스트 분석 → 탐색적 분석 → 모델링 → 모델 평가 및 검증

  → 모델 적용 및 운영방안 수립

  - 탐색적 분석(EDA; Exploratory Data Analysis)

    -- 다양한 데이터 시각화를 활용하여 데이터의 가독성을 명확히 하고 데이터의 형상 및 분포 등 데이터 특성을 파악하는 태스크, 탐색적 데이터 분석 → 데이터 시각화

 

- 모델링 태스크(Task)

  I) 데이터 분할(모델의 과적합 방지하거나 모델의 일반화에 이용)

    - 훈련용 데이터, 테스트용 데이터(검증용 데이터)

  ii) 데이터 모델링

    - 훈련용 데이터를 활용하여 분류, 예측, 군집 등의 모델을 만들어 가동중인 시스템에 적용

    - 비정형 데이터 분석 결과를 통합적으로 활용하여 통합 모델링 수행

    - 모델링 결과 보고서13

  iii) 모델 적용 및 운영방안

    - 모델에 대한 상세한 알고리즘 설명서 작성이 필요

    - 알고리즘 설명서는 시스템 구현 단계에서 중요한 입력자료로 활용되므로 필요시 의사코드(Pseudocode) 수준의 상세 작성이 필요, 모니터링 방안도 수립

    - 알고리즘 설명서, 모니터링 방안의 출력자료

 

- 모델 평가 및 검증 태스크(Task)

  - 분석용 데이터 셋이 아닌 별도의 데이터 셋(테스트용 데이터셋)으로 모델의 객관성과 실무 적용성을 검증해야 함

  - 모델 튜닝 작업

 

④ 시스템 구현(Developing) 단계

  - 운영 중인 시스템에 적용하거나 프로토타입(Prototype)을 구현하고자 하는 경우 시스템 구현 단계를 진행

  - 단순한 데이터 분석이나 데이터 마이닝을 통한 분석 보고서를 작성하는 것으로 프로젝트가 종료되는 경우에는 생략 가능

  - 소프트웨어 개발 생명주기인 SDLC(Software Development Life Cycle)와 커스터마이징(Customizing) 적용 가능

  - 시스템 구현 단계의 태스크(Task): 설계 및 구현 → 시스템 테스트 및 운영

 

⑤ 평가 및 전개(Deploying) 단계

  - 분석 기획 단계에서 수립된 프로젝트의 목적을 달성했는 지의 여부를 평가

  - 데이터 분석 단계와 시스템 구현 단계에서 구축된 모델의 발전계획을 수립

  - 빅데이터 분석 프로젝트의 종료 및 전개 프로세스로 구성

  - 수행된 프로젝트를 객관적이고 정량적으로 평가하여 내부 활용 및 자산화 추진

  - “프로젝트 종료 보고서” 작성하여 의사소통 체계에 따라 보고하고 프로젝트 종료

  - 평가 및 전개 단계의 태스크(Task): 모델 발전 계획 수립 → 프로젝트 평가 및 보고

 

3. 분석 과제 발굴

1. 분석 과제 발굴 방법론

① 하향식 접근 방식(Top Down Approach) ↓

  - 전통적 방식, 문제가 주어지고 이에 대한 해법을 찾는 방식 각 과정이 체계적으로 수행되는 방식

 

② 상향식 접근 방식(Bottom Up Approach) ↑

  - 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식

  - 데이터를 활용하여 생각하지 못했던 인사이트(insight)를 도출하고 시행착오를 통해서 개선해 가는 상향식 접근 방식의 유용성이 점차 증가하고 있는 추세

 

2. 하향식 접근법(Top Down Approach) : 4단계

1) 문제 탐색 단계(what, why) → 2) 문제 정의 단계(how) → 3) 해결방안 탐색 단계 → 4) 타당성 검토 단계

1) Problem Discovery – 2) Problem Definition – 3) Solution Search – 4) Feasibility Study

 

3. 하향식 접근법(Top Down Approach)의 과정

1) 문제 탐색(Problem Discovery)

- 무엇을(What), 어떤 목적(Why)으로 수행해야 하는 지의 관점

(1) 비즈니스 모델 기반 문제 탐색

  - 비즈니스 모델 캔버스 9가지 블럭

  → 5개의 영역(업무, 제품, 고객, 규제&감사, 지원 인프라)으로 단순화 하여 기업의 비즈니스 분석

  - 업무(Operation), 제품(Product), 고객(Customer) 단위로 문제를 발굴하고, 이를 관리하는 두가지 영역인 규제와 감사(Regulation & Audit) 영역과 지원인프라(IT & Human Resource) 영역에 대한 기회를 추가로 과제를 도출하는 작업을 수행

 

(2) 분석 기회 발굴의 범위 확장(4가지)

  ㉠ 거시적 관점 : 사회, 기술, 경제, 환경, 정치(STEEP)

  ㉡ 경쟁자 확대 : 대체제, 경쟁자, 신규 진입자

  ㉢ 시장 니즈 탐색 : 고객, 채널, 영향자들

  - 채널(Channel) : 영업사원, 직판 대리점, 홈페이지 등의 자체적으로 운영하는 채널뿐만 아니라 최종 고객에게 상품 서비스를 전달하는 것에 존재하는 경로를 파악하여 해당 경로에 존재하는 채널별로 분석 기회 확대 탐색

  ㉣ 역량의 재해석 : 내부 역량, 파트너 네트워크

 

(3) 외부 참조 모델 기반 문제 탐색

  - 유사 동종 업계 사례 벤치마킹을 통한 분석 기회 발굴

  → 분석 테마 후보 그룹(Pool)16

  → “Quick & Easy” 방식으로 아이디어 도출

  → 워크숍 형태의 브레인 스토밍(Brain Storming)을 통해 빠르게 도출

  - 평상시 지속적인 조사와 데이터 분석을 통한 가치 발굴사례를 정리 → 풀(Pool)로 만들어 정리 필요

 

(4) 분석 유즈 케이스(Analytics Use Case)

  - 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 하는 것

 

2) 문제 정의(Problem Definition)

- 문제를 탐색하기 위해 필요한 데이터 및 기법(How)를 정의하기 위한 데이터 분석의 문제로의 변환을 수행

- 식별된 비즈니스 문제를 정확하게 분석의 과점으로 문제를 재정의 하는 단계

- 데이터분석 문제의 정의 및 요구사항: 해당 문제가 해결되었을 때 효용을 얻을 수 있는 최종 사용자(End-User) 관점에서 이루어져야 함

 

3) 해결 방안 탐색(Solution Search)

- 정의된 데이터 분석 문제를 해결하기 위한 다양한 방안 모색

- 1) 기존 정보 시스템의 보완으로 분석이 가능한지 고려

- 2) 엑셀 등의 간단한 도구로 분석이 가능한지 고려

- 3) 하둡 등 분산 병렬처리를 활용한 빅데이터 분석도구를 통해 체계적이고 심도 있는 방안 고려

 

4) 타당성 검토(Feasibility Study)(3가지)

- 1) 경제적 타당성 검토 : 비용대비 편익 분석 관점의 접근

- 2) 데이터 타당성 검토 : 데이터의 존재여부, 분석시스템 환경, 그리고 분석역량이 갖추어져 있는지 검토

- 3) 기술적 타당성 검토 : 비즈니스 지식과 기술적 지식이 있는지 검토

 

4. 상향식 접근법(Bottom Up Approach)(4가지)

1) 정의

- 기업에서 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 접근방법

비즈니스 문제
무엇을(What), 어떤 목적으로(Why)
분석 문제
비즈니스 문제를 달성하기 위해 필요한
데이터 및 기법(How)을 정의
고객 이탈 증대 고객의 이탈에 영향을 미치는 요인을 식별하고, 이탈
가능성을 예측
예상치 않은 설비 장애로 인한 판매량 감소 설비의 장애를 이끄는 신호를 감지하여 설비 장애요인
으로 식별하고 장애 발생 시점 및 가능성을 예측
기존 판매정보 기반 영업사원의 판단 시 재고
관리 및 적정 가격 판매 어려움
내부 판매 정보 외의 수요 예측을 수행할 수 있는
인자의 추출 및 모델링을 통한 수요 예측

- 다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 모든 문제를 도출하는 일련의 과정

 

2) 상향식 접근법의 특징

- 기존의 하향식 접근법의 한계를 극복

- 하향식 접근법은 논리적 단계별 접근법으로 최근의 복잡하고 다양한 환경에서 발생하는 문제를 해결하기 어렵기 때문에 디자인적 사고(Design Thinking) 접근법을 통해 WHY -> WHAT 관점으로 존재하는 데이터 그 자체를 객관적으로 관찰하여 문제를 해결하려는 접근법을 사용

- 상향식 접근법은 비지도 학습 방법으로 수행되며, 데이터 자체의 결합, 연관성, 유사성을 중심으로 접근

- 시행 착오를 통한 문제 해결 : 프로토타이핑 접근법

① 디자인 사고(Design Thinking) 접근법

  - 상향식 접근 방식의 발산(Diverge) 단계 + 하향식 접근 방식이 수렴(Converge) 단계를 반복적 수행

  - 상호 보완하는 것으로 동적인 환경에서 분석의 가치를 높일 수 있는 최적의 의사결정 방식

 

* 디자인 사고 프로세스

  - 스탠포드 대학의 d.school은 디자인 사고 접근법을 통해서 전통적인 분석적 사고를 극복18

  - 기존의 분석 접근법의 한계를 극복하기 위해서 현장 관찰과 감정 이입(상대의 관점으로의 전환) 수행

  - Why가 아닌 사물을 있는 그대로 인식하는 What의 관점

  - d.school에서는 첫 단계로 감정 이입(Empathize)을 특히 `강조함

 

② 비지도 학습(Unsupervised Learning) 방법

  - 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현한 것

  - 새로운 유형의 인사이트 도출하기에 유용한 방식

  (예) 장바구니 분석, 군집 분석, 기술 통계 및 프로파일링

  - 참고) 지도 학습(Supervised Learning)

    -- 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것

    -- 분류, 예측, 추측, 최적화를 통해 분석 실시 및 도출 (예) O와 X 분류

 

③ 상관관계 분석, 연관 분석을 통한 문제의 해결

  - 인과관계(Know-why)로부터 상관관계(Know-affinity) 분석 이동

  - 다량의 데이터 분석을 통해서 “왜” 그러한 일이 발생하는지 역으로 추적하면서 문제를 도출하거나 재정의

 

시행 착오를 통한 문제 해결 - 프로토타이핑(Prototyping) 접근법

  - 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단

    분석을 시도해 보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법

  - 비록 완전하지 못하다 해도 신속하게 해결책이나 모형을 제시함으로써 이를 바탕으로 문제를 좀 더 명확하게 인식하고

    필요한 데이터를 식별하여 구체화할 수 있게 하는 유용한 상향식 접근 방식

  cf) 하향식 접근 방식 – 문제가 정형화되어 있고 문제해결을 위한 데이터가 완벽하게 조직에 존재할 경우 효과적

  - 프로토타이핑 접근법의 프로세스(4) : 가설의 생성 → 디자인에 대한 실험 → 테스트 → 통찰 도출 및 가설 확인

5. 분석 과제 정의

  - 분석과제 정의서를 통해 분석별 필요한 소스 데이터, 분석 방법, 데이터 입수 및 분석의 난이도, 분석 검증

    오너십, 상세 분석 과정 등을 정의

  - 분석과제 정의서 작성

4. 분석 프로젝트 관리 방안

1. 분석 과제의 관리 영역(5가지)

  - 기존 프로젝트의 영역별 관리(범위, 일정, 품질, 리스크, 의사 소통) + 5가지 추가적 관리가 필요

① Data Size

  - 데이터 양을 고려한 관리 방안 수립 필요

  - 하둡 환경의 엄청난 데이터량 기반 분석

 

② Data Complexity

  - 비정형 데이터 및 다양한 시스템에 산재되어 있는 원천 데이터들을 통합해서 분석

 

③ Speed

  - 분석 결과를 활용하는 시나리오 측면에서의 속도를 고려, 실시간 수행되어야 한다.(vs. 일괄처리)

 

④ Analytic Complexity

  - 분석 모델의 복잡도와 정확도를 고려한 최적 모델을 찾는 방식 모색, 복잡도와 정확도는 트레이드 오프

     (Trade off) 관계

 

⑤ Accuracy & Precision

  - Accuracy(정확도) : 모델과 실제값 사이의 차이가 적다는 것을 의미

  - Precision : 모델을 지속적으로 반복했을 때 편차의 수준으로써 일관적으로 동일한 결과를 제시한다는 것을 의미

  - 분석의 활용적인 측면에서는 Accuracy가 중요하며 안정성 측면에서는 Precision이 중요

  - Accuracy와 Precision은 트레이드 오프 관계20

 

2. 분석 프로젝트의 특징

1) 분석가의 목표

- 개별적인 분석업무 수행 뿐만 아니라 전반적인 프로젝트 관리 또한 중요

 

2) 분석가의 입장

- 데이터 영역과 비즈니스 영역의 현황을 이해하고, 프로젝트의 목표인 분석의 정확도 달성과 결과에 대한 가치 이해를 전달하는 조정자로서의 분석가의 역할이 중요

 

3) 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 “어자일(Agile) 프로젝트 관리 방식”에 대한 고려도 필요

참고) 어자일(Agile) 프로젝트 관리방식

  - 데이터분석의 지속적인 반복 및 개선을 통하여 점진적으로 의도했던 결과에 더욱 가까워지는 형태

  <Waterfall 방식과 Agile 관리 방식의 비교>

 

3. 분석 프로젝트 영역별 주요 관리 방안(10가지)

- 범위, 시간, 원가, 품질, 통합, 조달, 자원, 리스트, 의사소통, 이해관계자

- 이해관계자

  -- 데이터 분석 프로젝트는 데이터전문가, 비즈니스전문가, 분석전문가, 시스템전문가 등 다양한 전문가가 참여하므로

     이해 관계자의 식별과 관리가 필요함.

300x250