[3과목 학습목표] : 통계적 분석을 기반으로 하는 빅데이터 분석 모델과 데이터 마이닝을 기반으로 하는
빅데이터 분석 모델 설계 및 기법 적용 방법 이해
[3과목-1 분석모형 설계]
> 1. 분석에 사용하는 대표적인 분석 도구
2. 분석을 위해 데이터를 분할하는 방법 이해
1. 분석 절차 수립
(1) 분석 모형 선정
- 분석모형 : 일반적으로 많이 사용되는 데이터 분석 방법을 추상화한 것 (패턴, 계획, 설명)
- 필요성 : 해결하고자 하는 비즈니스 문제의 유형에 맞춰 적절한 분석 모형을 선정해야 쉽게 문제 해결할 수 있음
- 선정방법 : 분석 목적 설정(유형, 분석결과) , 데이터 특성 파악(분석 모형 적용)
- 분석목적설정 방법 : 데이터 분석 방법들은 중요 관점이나 용어는 다를 수 있지만 겹치거나 유사한 부분이 많음
기반 유형 | 분석방법 | 설명 | |
통계분석 | 특정집단, 불확실한 현상을 데이터를 통해 이해하고 추론을 통한 의사결정 과정 |
기술 통계 (EDA) |
데이터에 대한 이해 - 기초통계량(평균,표준편차), 데이터시각화 |
추론통계 | 인과관계분석 또는 모집단에대한 가설검정 | ||
상관분석 | 2개 이상의 변수간 상호연관성 정도를 측정 - 단순상관분석 : 2개 변수 사이의 연관관계 - 다중상관분석 : 3개 이상의 변수 - 변수간 상관분석 : 수치적,명목적,순서적 변수 분석 |
||
회귀분석 | 1개 이상의 독립변수가 종속변수에 미치는 영향 추정 |
||
분산분석 (ANOVA) |
2개 이상의 집단간 비교(분산비교) | ||
주성분분석 (PCA) |
주성분 변수를 원래변수들의 선형결합으로 추출하는 기법 (일부 주성분에 의한 변수 변동을 설명하기 위한 목적) |
||
판별분석 | 집단을 구별할 수 있는 판별규칙/함수 | ||
데이터마이닝 | 대용량의 데이터로부터 데이터 내의 패턴/관계/규칙 탐색 통계적인 기법 모델화를 통한 유용한 정보를 찾아내는 과정 |
분류모델 | 로지스틱 회귀분석/판별분석 트리기반방법(CART 알고리즘) : 의사결정규칙에 따라서 집단을 소집단으로 분류 독립변수 이분화 > 이진트리 형태 > 분류 예측 최적화기법(서포트벡터머신) : 초평면을 데이터 분리점을 지정해 이진선형 분류 기계학습(역전파 알고리즘) : 가중치 갱신을 통한 오차 최소화를 반복 수행 |
예측모델 | 회귀분석 : 적합도 측정 의사결정나무 : 분류 및 예측 모형, 변수모형 분석 전 이상값 검색 시계열분석 인공신경망 |
||
군집화모델 | 계층적(응집/분할분석법) : 군집 수 지정 X -> 단계적 군집결과 산출 비계층적(K-평균군집화) : 군집 수 지정 O -> 객체를 한 군집으로 배정 K개 군집의 중심좌표 |
||
연관규칙모델 | 장바구니 분석 : 지지도, 신뢰도, 향상도를 통해 동시에 발생하는 사건/항목 간 규칙을 수치화함 상품배열/카탈로그/교차판매 적용 |
||
머신러닝 | 목적변수(반응변수) 존재유무에 따라 지도학습/비지도학습/ 강화학습/준지도학습 |
지도학습 | 정답 레이블(Lable)이 포함된 데이터로 설명변수와 목적변수간의 관계성을 표현함 인식/분류/진단/예측 등의 문제해결 로지스틱 회귀 인공신경망 분석 의사결정나무 서포트백터머신(SVM) 랜덤 포레스트 : 의사결정나무의 분산이 크다는 단점 보안 감성분석 |
비지도학습 | 정답 레이블이 없는 데이터 예측보다, 현상설명/특징도출/패턴도출 문제 사전정보가 없는 상태에서 유용한 정보와 패턴을 발견함 군집화(k-means, SOM, 계층군집 등) - 자기조직화 지도(SOM) : 비지도 학습기반 클러스터링 기법 차원축소와 군집화 동시 진행 차원축소(주성분분석, 선형판별분석) 연관분석 자율학습 인공신경망 |
- 데이터 특성 : 데이터의 특성에 따라 적용 가능한 분석모형이 다름
데이터 유형 | 종속변수 | |||
종속범주(Y) | 종속변수 없음 | |||
연속형 종속변수 | 범주형 종속범주 | |||
독립 변수 (X) |
연속형 | 회귀분석 트리 모형 인공신경망 SVR KNN |
로지스틱 회귀분석 트리모형 인공신경망 SVM KNN 판별분석 |
주성분 분석 군집 분석 |
범주형 | 회귀분석 t-test ANOVA 트리모형 인공신경망 |
로지스틱 회귀분석 카이제곱검정 트리모형 인공신경망 나이브베이즈 |
연관분석 | |
연속형 + 범주형 |
회귀분석 트리모형 인공신경망 |
트리모형 인공신경망 |
상관분석 |
(2) 분석 모형 정의
- 정의 : 선정한 분석 모형을 데이터에 적용하기 위한 상세 정의 단계
- 주의점 : 적절한 모형 정의가 아니면 과소적합 및 과대적합으로 인한 오류 및 편향 발생
- 과정 : 분석모형의 성능에 영향을 미치는 변수선택, 하이퍼파라미터 튜닝 등
- 분석모형의 성능에 영향을 미치는 변수 선택
- 변수선택 : 모형을 구성하는 변수들을 식별하고 구조화하는 과정임
(차원축소, 파생변수 생성, 변수 변환, 불균형 처리등을 통해 유의변수 식별 및 생성)
변수 선택법 | 설명 |
전진 선택법 | 상관관계가 큰 변수부터 순차적으로 모형에 추가하여 변수 추가 |
후진 제거법 | 모든 독립변수를 추가한 모형에서 상관관계가 적은 변수부터 순차적으로 제거하는 방법 |
단계적 선택법 | 전진 선택법으로 순차적으로 변수를 추가하면서 중요도가 약해진 변수를 후진 제거법으로 제거하는 방법 * 주의점 - 반복된 검정 수행으로 1종 오류 위험이 높음 - 변수 선택을 위한 유의수준을 통제하기 어려움 - 변수 간 상관관계의 영향을 받음 |
- 변수선택 대안
- 전체 변수 사용 또는 전체 조합 비교
- 도메인 지식 기반 변수 선택
- Lasso, Ridge 등 제약 조건을 주는 모델 사용
- 하이퍼파라미터 튜닝
: 모형의 성능에 간접적인 영향을 미치는 하이퍼파라미터를 조정하여 분석모형의 성능 최적화 방법
파라미터 | 하이퍼파라미터 |
- 모형 내부 요소 - 모형의 성능에 직접적인 영향을 미침 - 데이터 학습을 통해 자동으로 결정 |
- 모형 외부 요소 - 파라미터 결정을 위해 사용 됨 - 사용자가 경험적으로 결정 |
- 하이퍼파라미터 튜닝 방법
매뉴얼 서치 | 그리드 서치 | 랜덤서치 |
사용자의 직감 또는 경험에 근거하여 하이퍼파라미터를 조정하는 방법 그리드 서치 또는 랜덤서치를 먼저 수행후 추가적으로 세부 조정에 사용하는 것이 적절함 |
모든 조합을 시도하여 최적의 파라미터값을 찾는 방법임 후보 내에서 가장 좋은 결과를 얻지만 후보수가 증가하면 계산 시간이 기하급수적으로 증가함 |
후보 값의 범위를 지정하고 무작위 표본추출을 통해 생성된 조합을 시도하여 최적의 파라미터를 찾는 방법 그리드 서치의 단점을 보완한 방법 불필요한 값의 중복을 줄이고 상대적으로 중요한 값을 많이 탐색함 |
- 분석모형 정의 고려사항
- 과소적합 : 모델이 간단하면 학습이 부족하여 실제 성능이 떨어짐
- 과대적합 : 모델이 복잡하면 지나친 차수 증가로 실제 데이터 성능 떨어짐
- 부적합 모형 현상
- 모형 선택 오류 : 적합하지 않은 모형
- 변수 누락 : 모델 생성 시 관계있는 변수를 누락
- 부적합 변수 생성 : 관련 없는 변수를 포함(편향, 과대적합)
- 동시 편향 : 종속변수가 연립방정식의 일부인 경우
(3) 분석 구축의 절차 | 요건정의 > 모델링 > 검증 및 테스트 > 적용
- 요건 정의 : 기획단계에서 도출한 내용를 구체적인 요구사항정의 및 분석추진계획 수립함
상세 절차 | 설명 |
요구사항 도출 | 기획단계보다 상세한 분석 요건 도출/분석/명세화 예상이슈, 기대효과, 제약사항 등 사전 정의 및 협의 |
분석 추진 계획 수립 | 분석 가능성 검토 분석 환경 설정 분석계획서 및 WBS 작성(우선순위) * WBS - 프로젝트의 범위 및 산출물을 구체적으로 분할한 계층적 구조의미 |
요구사항 확정 | 최종 요건 설정(기획안 공유/확정) |
- 모델링 : 정의된 요건에 따라 본격적인 분석을 수행함
상세 절차 | 설명 |
데이터 마트 설계 및 구축 | 분석 대상 데이터 수집 데이터 전처리 및 마트 설계 개발 |
탐색적 분석 및 유의변수 도출 | 탐색적 데이터 분석 사전모형 기반 유의 변수 도출 |
모델링 | 적절한 모형 후보를 선정 평가를 위한 데이터 분할 모형 학습 및 최적화 |
모델 성능 평가 | 평가지표 기반 성능 평가 : 정확도/정밀도/재현율/향상도 모형 학습 선정 |
- 검증 및 테스트 : 데이터 분리 > 자체 검증 > 실제 테스트 결과 도출
상세 절차 | 설명 |
운영 환경 테스트 | 가상 운영 환경에 적용하여 테스트 테스트 결과를 모형에 반영하고 반복 테스트 수행 |
비즈니스 영향도 평가 | 투자대비효과(ROI)를 정량화하여 비즈니스 영향도 평가 * 투자비용대비 재무 효과가 200~300% 이상 증명 (총소유비용(TCO)/투자대비효과/순현재가치/내부수익률/투자회수기간) 모델링 성과 : 재현율 증가 or 향상도 개선 |
- 적용 : 분석 결과를 실제 운영 환경에 적용하는 단계(일, 주, 월 단위)
상세 절차 | 설명 |
운영 시스템 적용 | 실제 운영 환경에 적용 자동 모니터링 프로세스 수립 |
주기적 모델 업데이트 | 모델링 결과를 정기적으로 재평가 필요시 분석 모형 재학습 |
2. 분석 환경 구축
(1) 분석 도구 선정
- 분석도구 정의 : 분석 도구는 데이터 사이언스. 통계분석, 기계학습, 비즈니스 분석을 위해 사용하는 분석
- R
- Python
- SAS & SPSS
(2) 데이터 분할
- 데이터 분할 : 학습용/검증용/평가용 데이터로 분할
- 목적 : 분석 모형의 과적합을 방지, 일반화 성능 향상, 2종오류(잘못된 귀무가설 채택)을 방지
- 기법
홀드아웃(hold-out) | K-fold 교차검증 | 부트스트랩 |
- 랜덤 추출을 통한 데이터 분할 - 학습 : 검증 : 테스트 = 6:2:2 || 8:2 - 랜덤 추출을 통한 데이터 편향으로 성능 평가의 신뢰성이 떨어질 수 있음 |
- 테스트 데이터를 제외한 데이터를 무작위로 중복되지 않는 K개의 데이터로 분할함 - 학습: 검증 = (K-1) : 1 - 검증데이터를 바꾸며 K번 반복해 분할된 데이터가 한 번씩 검증 데이터로 사용됨 |
- 데이터의 분포가 치우쳐 있거나 데이터 건수가 너무 적을 때 가능한 방법 - 학습 : 검증 = 63.2 : 36.8 - 부트스트랩 샘플링은 복원추출을 통해 전체데이터와 동일한 사이즈의 샘플데이터를 추출한다 |
참고
2022 빅데이터 분석기사 필기 한권완성
빅데이터분석기사필기 수제비 2021
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터 분석기사 실기] 4회차 실기문제 메모메모 (0) | 2022.06.29 |
---|---|
[빅데이터 분석기사 실기] 응시환경 체험 (0) | 2022.04.28 |
[빅데이터분석기사 필기] 4과목 빅데이터 결과 해석 - 분석 결과 해석 및 활용(2) (1) | 2022.04.07 |
[빅데이터분석기사 필기] 3과목 빅데이터 모델링 - 분석 기법 적용(2) (0) | 2022.04.07 |
[빅데이터분석기사 필기] 3과목 빅데이터 모델링 - 분석 기법 적용(1) (2) | 2022.04.02 |