1. 분석 기획 방향성 도출
1. 분석 기획의 특징
1) 분석 기획
- 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
2) 데이터 사이언티스트의 역량
- 수학/통계학적 지식, 정보기술(IT기술, 해킹기술, 통신기술 등), 비즈니스에 대한 이해와 전문성
2. 분석에서 가장 중요한 요소
Data + Analytics Model(분석 모델) + Analyst(분석가) ⇒ Value(가치 창출)
3. 분석 기획 구분(2가지) – 목표 시점별
① 분석 과제 발굴(단기)
- 분석과제의 목표를 달성하기 위해 필요 요건 정의
② 분석 마스터플랜(중장기)
- 지속적인 분석과제 수행을 지원하기 위한 분석지원 거버넌스 체계를 도출(조직/프로세스/인프라/조직문화등 제반 환경)
4. 분석 대상과 방법에 따른 분석 주제(4가지)
분석방법(How) | 분석의 대상(What) | ||
Known | Un-Known | ||
Known | Optimization(최적화) | Insight(통찰) | |
Un-Known | Solution(솔루션) | Discovery(발견) |
① What Known/How Known
- 해결해야 할 문제 알고 분석의 방법도 알려짐 → 개선을 통한 최적화(Optimization)
② What Known/How Un-Known
- 해결해야 할 문제 알고 있으나 분석의 방법을 모름 → 솔루션(Solution)을 찾아내는 방식으로 수행
③ What Un-Known/How Known
- 해결해야 할 문제 모르나 분석의 방법을 알려짐 → 기존 분석 방법을 활용하여 새로운 지식인 통찰(Insight)을 도출
④ What un-Known/How Un-Known
- 해결해야 할 문제 모르고 분석의 방법도 모름 → 발견(Discovery) 접근법으로 분석의 대상 자체를 새롭게 도출
5. 목표 시점 별 분석 기획 방안(2가지)
분석 과제(단기) | 분석 마스터(중장기) | |
당면한 분석 주제의 해결 (과제 단위) |
지속적 분석 문화 내재화 (마스터플랜 단위) |
|
Speed & Test | 1차 목표 | Accuracy & Deploy |
Quick-Win | 과제의 유형 | Long Term View |
Problem Solving | 접근 방식 | Problem Definition |
6. 분석 기획 시 고려사항(3가지)
① 가용할 데이터에 대한 고려 필요
i) 데이터 확보가 우선
ii) 데이터 유형에 대한 분석이 선행
- 데이터의 유형 : 정형데이터, 비정형데이터, 반정형데이터
데이터 유형 | 정의 | 형태 | 연산 | 저장 | 수집 난이도 |
필요기술 | 예 |
정형 데이터 | 고정된 필드(형태)가 존재 | O | O | RDB | 낮다 | SQL | RDB, 스프레드시트, CSV, |
반정형 데이터 | 센서에서 스트리밍되는 머신 데이터 | O | X | 파일 | 중간 | 파싱기술 (API제공) |
XML, HTML, JSON, 웹로그 |
비정형 데이터 | 형태가 정해지지 않은 데이터 | X | X | NoSQL | 높다 | 텍슨트마이닝, 파싱기술 |
SNS,영상, 이미지, 텍스트, Email,보고서 |
② 분석을 통해서 가치가 창출될 수 있는 적절한 활용방안과 활용 가능한 유스케이스 탐색이 필요
- “바퀴는 재발명 하지 마라” → 기존의 유사분석 시나리오, 솔루션을 최대한 활용
③ 분석과제 수행을 위한 장애요소에 대한 사전계획수립 필요
2. 분석 방법론
1. 분석 방법론의 구성 요소
① 절차(Procedures)
② 방법(Methods)
③ 도구와 기법(Tools & Techniques)
④ 템플릿과 산출물(Templates & Outputs)
2. 기업의 합리적 의사 결정 장애요소(3)
① 고정관념(Stereotype)
② 편향된 생각(Bias)
③ 프레이밍 효과(Framing Effect)
- 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는
현상
3. 방법론의 생성 과정
4. 방법론의 적용 업무의 특성에 따른 모델(3가지)
① 폭포수형 모델(Waterfall Model) : 하향식(Top-Down)
- 단계를 순차적으로 진행하는 방법으로, 이전 단계가 완료되어야 다음 단계로 진행할 수 있다.
- 하향식(Top-Down)으로 진행
- 문제나 개선 사항이 발견되면 전 단계로 돌아가는 피드백(Feedback) 과정이 수행되기도 한다.
② 프로토타입 모델(Prototype Model) : 상향식(Bottom-Up)
- 폭포수 모델의 단점을 보안
- 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해 보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법
- 상향식(Bottom-Up) 방법
③ 나선형 모델(Spiral Model) : 상향식(Bottom-Up)
- 반복을 통하여 집중적으로 개발하는 방법
- 상향식(Bottom-Up) 방법
- 처음 시도하는 프로젝트에 적용이 용이
- 반복에 대한 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려움
[분석 방법론(3가지)]
① KDD 분석 방법론
② CRISP-DM 분석 방법론
③ 빅데이터 분석 방법론
5. KDD 분석 방법론 – 데이터에]서 패턴을 찾는 과정
① 데이터 셋 선택(Selection)=추출
- 비즈니스 도메인에 대한 이해, 프로젝트 목표를 정확하게 설정
- 데이터 마이닝에 필요한 목표 데이터(Target Data)를 구성
② 데이터 전처리(Preprocessing)
- 데이터 셋에 포함되어 있는 잡음(Noise), 이상값(Outlier), 결측치(Missing Value)를 식별하고, 필요시 제거하거나 의미 있는 데이터로 처리하는 데이터 셋 정제작업을 시행
③ 데이터 변환(Transformation)
- 분석 목적에 맞는 변수를 선택하거나 데이터 차원을 축소하여 데이터 마이닝을 효율적으로 적용될 수 있도록 데이터 셋을 변경하는 프로세스를 수행
- 학습용 데이터/검증용 데이터(7:3, 8:2, 6:4)로 데이터 분리하는 단계 => 홀드 아웃(Hold Out)
④ 데이터 마이닝(Data Mining) = 기계학습(머신러닝)
- 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 데이터 마이닝 알고리즘을 선택하여 데이터의 패턴을 찾거나 데이터를 분류 또는 예측 등의 마이닝 작업을 시행
⑤ 데이터 마이닝 결과 평가(Interpretation/Evaluation)
- 데이터 마이닝 결과에 대한 해석과 평가 그리고 분석 목적과의 일치성을 확인
- 발견된 지식을 업무에 활용하기 위한 방안을 찾는다.
6. CRISP-DM 분석 방법론 : 4레벨, 6단계 프로세스
- CRISP-DM(Cross Industry Standard Process for Data Mining)
- 1996 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작
- 계층적 프로세스 모델(Hierachical Process Model) : 4레벨 구조, 6단계 프로세스
1) CRISP-DM 4레벨 구조
① 단계(Phases)
- 일반화 태스크(Generic Tasks)를 포함
② 일반화 태스크
- 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위 (예) 데이터 정제
③ 세분화 태스크
- 일반화 태스크를 구체적으로 수행하는 레벨 (예) 범주형 데이터 정제, 연속형 데이터 정제 등
④ 프로세스 실행
- 데이터 마이닝을 위한 구체적인 실행을 포함9
2) CRISP-DM 6단계 프로세스
: 업무이해 → 데이터이해 → 데이터 준비 → 모델링 → 평가 → 전개
- 단계 간 피드백(Feedback)을 통하여 단계별 완성도를 높인다.
(2개의 피드백 : 업무이해 ↹ 데이터이해, 데이터준비 ↹ 모델링)
① 업무 이해(Business Understanding)
- 비즈니스 관점에서 프로젝트 목적과 요구사항을 이해하기 위한 단계
- 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
② 데이터 이해(Data Understanding)
- 분석을 위한 데이터를 수집, 데이터 속성을 이해 과정
- 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
③ 데이터 준비(Data Preparation)
- 수집된 데이터에서 분석기법에 적합한 데이터셋을 편성하는 단계, 많은 시간이 소요
- 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅
④ 모델링(Modeling)
- 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
- 데이터 셋이 추가로 필요한 경우 데이터 준비단계를 반복 수행할 수 있다.
- 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
⑤ 평가(Evaluation)
- 모델이 프로젝트 목적에 부합하는지를 평가
- 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단
- 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
⑥ 전개(Deployment)
- 실 업무에 적용하기 위한 계획을 수립하고 모니터링과 모델의 유지보수 계획을 마련
- 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰
7. 빅데이터 분석 방법론: 3계층, 5단계 프로세스로 구성
1) 빅데이터 분석 방법론의 3계층 구조
① 단계(Phases)
- 최상위 계층, 프로세스 그룹(Process Group)을 통하여 완성된 단계별 산출물이 생성
- 기준선(Baseline)으로 설정되어 관리되어야 하며 버전 관리 등을 통하여 통제가 이루어져야 함.
- 여러 개의 태스크로 구성
② 태스크(Task)
- 단계를 구성하는 단위 활동
- 물리적 또는 논리적 단위로 품질검토의 항목
③ 스텝(Step)
- WBS(Work Breakdown Structure)의 워크 패키지에 해당
- 입력자료(Input), 처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)11
2) 빅데이터 분석 방법론 프로세스 5단계
① 분석 기획(Planning) 단계
- 비즈니스 이해 및 범위 설정 → 프로젝트 정의 및 계획 수립 → 프로젝트 위험계획 수립
- 비즈니스를 이해하고 도메인의 문제점을 파악하여 빅데이터 분석 프로젝트의 범위를 확장하는 단계
- 프로젝트 정의 및 수행계획을 구체적이고 상세하게 수립하여 향후 프로젝트 진행의 기준선이 되도록 준비
- 태스크(Task): 1) 비즈니스 이해 및 프로젝트 범위 설정
2) 프로젝트 정의 및 수행 계획 수립
3) 프로젝트 위험계획 수립12
- 위험 대응 계획 수립은 예상되는 위험에 대해 회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(Accept)으로 구분하여 위험 관리 계획서를 작성한다.
- 프로젝트 범위 정의서(SOW), 프로젝트 정의서(WBS) 작성 - 프로젝트 위험계획 수립
② 데이터 준비(Preparing) 단계
- 필요 데이터 정의 → 데이터 스토어 설계 → 데이터 수집 및 정합성 점검
- 비즈니스 요구사항을 데이터 차원에서 다시 파악
- 프로젝트별로 필요로 하는 데이터를 정의하여 전사 차원의 데이터 스토어(Data Store)를 준비
- 데이터 수집 저장 시 ETL(Extract Transform Load) 등의 다양한 도구를 사용
- 데이터 품질 확보를 위해 품질 통제와 품질보증 프로세스 수행
- 태스크(Task) : 필요한 데이터 정의 → 데이터 스토어 설계 → 데이터 수집 및 정합성 점검
- 필요한 데이터 정의 : 데이터 정의서 작성(전사차원에서 필요한 데이터, 정형‧비정형‧반정형등의 모든 내‧외부 데이터)
③ 데이터 분석(Analyzing) 단계
- 분석용 데이터 준비 → 텍스트 분석 → 탐색적 분석 → 모델링 → 모델 평가 및 검증
- 데이터 스토어에서 분석에 필요한 데이터셋을 준비하고 탐색적 분석, 모델링과 모델 평가 태스크를 진행
- 비정형 테스트 데이터가 존재
→ 분석기법(텍스트 마이닝, 텍스트 분류 등)
→ 알고리즘을 이용하여 비정형 분석 실시
→ 필요 시 정형 데이터와 결합 → 통합 모델링을 수행
- 분석에 필요한 충분한 데이터 확보를 위해서 데이터 준비 단계를 반복하여 수행(피드백)
- 태스크(Task) : 분석용 데이터 준비 → 텍스트 분석 → 탐색적 분석 → 모델링 → 모델 평가 및 검증
→ 모델 적용 및 운영방안 수립
- 탐색적 분석(EDA; Exploratory Data Analysis)
-- 다양한 데이터 시각화를 활용하여 데이터의 가독성을 명확히 하고 데이터의 형상 및 분포 등 데이터 특성을 파악하는 태스크, 탐색적 데이터 분석 → 데이터 시각화
- 모델링 태스크(Task)
I) 데이터 분할(모델의 과적합 방지하거나 모델의 일반화에 이용)
- 훈련용 데이터, 테스트용 데이터(검증용 데이터)
ii) 데이터 모델링
- 훈련용 데이터를 활용하여 분류, 예측, 군집 등의 모델을 만들어 가동중인 시스템에 적용
- 비정형 데이터 분석 결과를 통합적으로 활용하여 통합 모델링 수행
- 모델링 결과 보고서13
iii) 모델 적용 및 운영방안
- 모델에 대한 상세한 알고리즘 설명서 작성이 필요
- 알고리즘 설명서는 시스템 구현 단계에서 중요한 입력자료로 활용되므로 필요시 의사코드(Pseudocode) 수준의 상세 작성이 필요, 모니터링 방안도 수립
- 알고리즘 설명서, 모니터링 방안의 출력자료
- 모델 평가 및 검증 태스크(Task)
- 분석용 데이터 셋이 아닌 별도의 데이터 셋(테스트용 데이터셋)으로 모델의 객관성과 실무 적용성을 검증해야 함
- 모델 튜닝 작업
④ 시스템 구현(Developing) 단계
- 운영 중인 시스템에 적용하거나 프로토타입(Prototype)을 구현하고자 하는 경우 시스템 구현 단계를 진행
- 단순한 데이터 분석이나 데이터 마이닝을 통한 분석 보고서를 작성하는 것으로 프로젝트가 종료되는 경우에는 생략 가능
- 소프트웨어 개발 생명주기인 SDLC(Software Development Life Cycle)와 커스터마이징(Customizing) 적용 가능
- 시스템 구현 단계의 태스크(Task): 설계 및 구현 → 시스템 테스트 및 운영
⑤ 평가 및 전개(Deploying) 단계
- 분석 기획 단계에서 수립된 프로젝트의 목적을 달성했는 지의 여부를 평가
- 데이터 분석 단계와 시스템 구현 단계에서 구축된 모델의 발전계획을 수립
- 빅데이터 분석 프로젝트의 종료 및 전개 프로세스로 구성
- 수행된 프로젝트를 객관적이고 정량적으로 평가하여 내부 활용 및 자산화 추진
- “프로젝트 종료 보고서” 작성하여 의사소통 체계에 따라 보고하고 프로젝트 종료
- 평가 및 전개 단계의 태스크(Task): 모델 발전 계획 수립 → 프로젝트 평가 및 보고
3. 분석 과제 발굴
1. 분석 과제 발굴 방법론
① 하향식 접근 방식(Top Down Approach) ↓
- 전통적 방식, 문제가 주어지고 이에 대한 해법을 찾는 방식 각 과정이 체계적으로 수행되는 방식
② 상향식 접근 방식(Bottom Up Approach) ↑
- 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식
- 데이터를 활용하여 생각하지 못했던 인사이트(insight)를 도출하고 시행착오를 통해서 개선해 가는 상향식 접근 방식의 유용성이 점차 증가하고 있는 추세
2. 하향식 접근법(Top Down Approach) : 4단계
1) 문제 탐색 단계(what, why) → 2) 문제 정의 단계(how) → 3) 해결방안 탐색 단계 → 4) 타당성 검토 단계
1) Problem Discovery – 2) Problem Definition – 3) Solution Search – 4) Feasibility Study
3. 하향식 접근법(Top Down Approach)의 과정
1) 문제 탐색(Problem Discovery)
- 무엇을(What), 어떤 목적(Why)으로 수행해야 하는 지의 관점
(1) 비즈니스 모델 기반 문제 탐색
- 비즈니스 모델 캔버스 9가지 블럭
→ 5개의 영역(업무, 제품, 고객, 규제&감사, 지원 인프라)으로 단순화 하여 기업의 비즈니스 분석
- 업무(Operation), 제품(Product), 고객(Customer) 단위로 문제를 발굴하고, 이를 관리하는 두가지 영역인 규제와 감사(Regulation & Audit) 영역과 지원인프라(IT & Human Resource) 영역에 대한 기회를 추가로 과제를 도출하는 작업을 수행
(2) 분석 기회 발굴의 범위 확장(4가지)
㉠ 거시적 관점 : 사회, 기술, 경제, 환경, 정치(STEEP)
㉡ 경쟁자 확대 : 대체제, 경쟁자, 신규 진입자
㉢ 시장 니즈 탐색 : 고객, 채널, 영향자들
- 채널(Channel) : 영업사원, 직판 대리점, 홈페이지 등의 자체적으로 운영하는 채널뿐만 아니라 최종 고객에게 상품 서비스를 전달하는 것에 존재하는 경로를 파악하여 해당 경로에 존재하는 채널별로 분석 기회 확대 탐색
㉣ 역량의 재해석 : 내부 역량, 파트너 네트워크
(3) 외부 참조 모델 기반 문제 탐색
- 유사 동종 업계 사례 벤치마킹을 통한 분석 기회 발굴
→ 분석 테마 후보 그룹(Pool)16
→ “Quick & Easy” 방식으로 아이디어 도출
→ 워크숍 형태의 브레인 스토밍(Brain Storming)을 통해 빠르게 도출
- 평상시 지속적인 조사와 데이터 분석을 통한 가치 발굴사례를 정리 → 풀(Pool)로 만들어 정리 필요
(4) 분석 유즈 케이스(Analytics Use Case)
- 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 하는 것
2) 문제 정의(Problem Definition)
- 문제를 탐색하기 위해 필요한 데이터 및 기법(How)를 정의하기 위한 데이터 분석의 문제로의 변환을 수행
- 식별된 비즈니스 문제를 정확하게 분석의 과점으로 문제를 재정의 하는 단계
- 데이터분석 문제의 정의 및 요구사항: 해당 문제가 해결되었을 때 효용을 얻을 수 있는 최종 사용자(End-User) 관점에서 이루어져야 함
3) 해결 방안 탐색(Solution Search)
- 정의된 데이터 분석 문제를 해결하기 위한 다양한 방안 모색
- 1) 기존 정보 시스템의 보완으로 분석이 가능한지 고려
- 2) 엑셀 등의 간단한 도구로 분석이 가능한지 고려
- 3) 하둡 등 분산 병렬처리를 활용한 빅데이터 분석도구를 통해 체계적이고 심도 있는 방안 고려
4) 타당성 검토(Feasibility Study)(3가지)
- 1) 경제적 타당성 검토 : 비용대비 편익 분석 관점의 접근
- 2) 데이터 타당성 검토 : 데이터의 존재여부, 분석시스템 환경, 그리고 분석역량이 갖추어져 있는지 검토
- 3) 기술적 타당성 검토 : 비즈니스 지식과 기술적 지식이 있는지 검토
4. 상향식 접근법(Bottom Up Approach)(4가지)
1) 정의
- 기업에서 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 접근방법
비즈니스 문제 무엇을(What), 어떤 목적으로(Why) |
분석 문제 비즈니스 문제를 달성하기 위해 필요한 데이터 및 기법(How)을 정의 |
고객 이탈 증대 | 고객의 이탈에 영향을 미치는 요인을 식별하고, 이탈 가능성을 예측 |
예상치 않은 설비 장애로 인한 판매량 감소 | 설비의 장애를 이끄는 신호를 감지하여 설비 장애요인 으로 식별하고 장애 발생 시점 및 가능성을 예측 |
기존 판매정보 기반 영업사원의 판단 시 재고 관리 및 적정 가격 판매 어려움 |
내부 판매 정보 외의 수요 예측을 수행할 수 있는 인자의 추출 및 모델링을 통한 수요 예측 |
- 다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 모든 문제를 도출하는 일련의 과정
2) 상향식 접근법의 특징
- 기존의 하향식 접근법의 한계를 극복
- 하향식 접근법은 논리적 단계별 접근법으로 최근의 복잡하고 다양한 환경에서 발생하는 문제를 해결하기 어렵기 때문에 디자인적 사고(Design Thinking) 접근법을 통해 WHY -> WHAT 관점으로 존재하는 데이터 그 자체를 객관적으로 관찰하여 문제를 해결하려는 접근법을 사용
- 상향식 접근법은 비지도 학습 방법으로 수행되며, 데이터 자체의 결합, 연관성, 유사성을 중심으로 접근
- 시행 착오를 통한 문제 해결 : 프로토타이핑 접근법
① 디자인 사고(Design Thinking) 접근법
- 상향식 접근 방식의 발산(Diverge) 단계 + 하향식 접근 방식이 수렴(Converge) 단계를 반복적 수행
- 상호 보완하는 것으로 동적인 환경에서 분석의 가치를 높일 수 있는 최적의 의사결정 방식
* 디자인 사고 프로세스
- 스탠포드 대학의 d.school은 디자인 사고 접근법을 통해서 전통적인 분석적 사고를 극복18
- 기존의 분석 접근법의 한계를 극복하기 위해서 현장 관찰과 감정 이입(상대의 관점으로의 전환) 수행
- Why가 아닌 사물을 있는 그대로 인식하는 What의 관점
- d.school에서는 첫 단계로 감정 이입(Empathize)을 특히 `강조함
② 비지도 학습(Unsupervised Learning) 방법
- 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현한 것
- 새로운 유형의 인사이트 도출하기에 유용한 방식
(예) 장바구니 분석, 군집 분석, 기술 통계 및 프로파일링
- 참고) 지도 학습(Supervised Learning)
-- 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것
-- 분류, 예측, 추측, 최적화를 통해 분석 실시 및 도출 (예) O와 X 분류
③ 상관관계 분석, 연관 분석을 통한 문제의 해결
- 인과관계(Know-why)로부터 상관관계(Know-affinity) 분석 이동
- 다량의 데이터 분석을 통해서 “왜” 그러한 일이 발생하는지 역으로 추적하면서 문제를 도출하거나 재정의
④ 시행 착오를 통한 문제 해결 - 프로토타이핑(Prototyping) 접근법
- 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단
분석을 시도해 보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법
- 비록 완전하지 못하다 해도 신속하게 해결책이나 모형을 제시함으로써 이를 바탕으로 문제를 좀 더 명확하게 인식하고
필요한 데이터를 식별하여 구체화할 수 있게 하는 유용한 상향식 접근 방식
cf) 하향식 접근 방식 – 문제가 정형화되어 있고 문제해결을 위한 데이터가 완벽하게 조직에 존재할 경우 효과적
- 프로토타이핑 접근법의 프로세스(4) : 가설의 생성 → 디자인에 대한 실험 → 테스트 → 통찰 도출 및 가설 확인
5. 분석 과제 정의
- 분석과제 정의서를 통해 분석별 필요한 소스 데이터, 분석 방법, 데이터 입수 및 분석의 난이도, 분석 검증
오너십, 상세 분석 과정 등을 정의
- 분석과제 정의서 작성
4. 분석 프로젝트 관리 방안
1. 분석 과제의 관리 영역(5가지)
- 기존 프로젝트의 영역별 관리(범위, 일정, 품질, 리스크, 의사 소통) + 5가지 추가적 관리가 필요
① Data Size
- 데이터 양을 고려한 관리 방안 수립 필요
- 하둡 환경의 엄청난 데이터량 기반 분석
② Data Complexity
- 비정형 데이터 및 다양한 시스템에 산재되어 있는 원천 데이터들을 통합해서 분석
③ Speed
- 분석 결과를 활용하는 시나리오 측면에서의 속도를 고려, 실시간 수행되어야 한다.(vs. 일괄처리)
④ Analytic Complexity
- 분석 모델의 복잡도와 정확도를 고려한 최적 모델을 찾는 방식 모색, 복잡도와 정확도는 트레이드 오프
(Trade off) 관계
⑤ Accuracy & Precision
- Accuracy(정확도) : 모델과 실제값 사이의 차이가 적다는 것을 의미
- Precision : 모델을 지속적으로 반복했을 때 편차의 수준으로써 일관적으로 동일한 결과를 제시한다는 것을 의미
- 분석의 활용적인 측면에서는 Accuracy가 중요하며 안정성 측면에서는 Precision이 중요
- Accuracy와 Precision은 트레이드 오프 관계20
2. 분석 프로젝트의 특징
1) 분석가의 목표
- 개별적인 분석업무 수행 뿐만 아니라 전반적인 프로젝트 관리 또한 중요
2) 분석가의 입장
- 데이터 영역과 비즈니스 영역의 현황을 이해하고, 프로젝트의 목표인 분석의 정확도 달성과 결과에 대한 가치 이해를 전달하는 조정자로서의 분석가의 역할이 중요
3) 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 “어자일(Agile) 프로젝트 관리 방식”에 대한 고려도 필요
참고) 어자일(Agile) 프로젝트 관리방식
- 데이터분석의 지속적인 반복 및 개선을 통하여 점진적으로 의도했던 결과에 더욱 가까워지는 형태
<Waterfall 방식과 Agile 관리 방식의 비교>
3. 분석 프로젝트 영역별 주요 관리 방안(10가지)
- 범위, 시간, 원가, 품질, 통합, 조달, 자원, 리스트, 의사소통, 이해관계자
- 이해관계자
-- 데이터 분석 프로젝트는 데이터전문가, 비즈니스전문가, 분석전문가, 시스템전문가 등 다양한 전문가가 참여하므로
이해 관계자의 식별과 관리가 필요함.
'개인공부 > ADsP' 카테고리의 다른 글
[ADsP 정리] 3. 데이터 분석(1) (0) | 2024.05.13 |
---|---|
[ADsP 정리] 2. 데이터 분석기획(2) (0) | 2024.05.09 |
[ADsP 정리] 1. 데이터 이해(3) (2) | 2024.05.04 |
[ADsP 정리] 1. 데이터 이해(2) (0) | 2024.05.02 |
[ADsP 정리] 1. 데이터 이해(1) (2) | 2024.05.01 |