Ordinary existence

engineer 감각이 있는 Data researcher

sun about me

자격증/빅데이터분석기사

[빅데이터분석기사 필기] 3과목 빅데이터 모델링 - 분석모형 설계

Mithumbsup 2022. 3. 29. 20:29

[3과목 학습목표] :  통계적 분석을 기반으로 하는 빅데이터 분석 모델과 데이터 마이닝을 기반으로 하는 

                        빅데이터 분석 모델 설계 및 기법 적용 방법 이해 

 

[3과목-1 분석모형 설계]   

                 > 1. 분석에 사용하는 대표적인 분석 도구

                    2. 분석을 위해 데이터를 분할하는 방법 이해 


1. 분석 절차 수립

   (1) 분석 모형 선정

  • 분석모형 : 일반적으로 많이 사용되는 데이터 분석 방법을 추상화한 것 (패턴, 계획, 설명) 
  • 필요성    : 해결하고자 하는 비즈니스 문제의 유형에 맞춰 적절한 분석 모형을 선정해야 쉽게 문제 해결할 수 있음
  • 선정방법 : 분석 목적 설정(유형, 분석결과) , 데이터 특성 파악(분석 모형 적용)

 

  • 분석목적설정 방법 : 데이터 분석 방법들은 중요 관점이나 용어는 다를 수 있지만 겹치거나 유사한 부분이 많음 
기반 유형 분석방법 설명
통계분석 특정집단, 불확실한 현상을
데이터를 통해 이해하고
추론을 통한 의사결정 과정
기술 통계
(EDA)
데이터에 대한 이해
- 기초통계량(평균,표준편차), 데이터시각화 
추론통계 인과관계분석 또는 모집단에대한 가설검정
상관분석 2개 이상의 변수간 상호연관성 정도를 측정
- 단순상관분석     : 2개 변수 사이의 연관관계
- 다중상관분석     : 3개 이상의 변수 
- 변수간 상관분석 : 수치적,명목적,순서적 변수 분석
회귀분석 1개 이상의 독립변수가 종속변수에 미치는 영향 추정
분산분석
(ANOVA)
2개 이상의 집단간 비교(분산비교)
주성분분석
(PCA)
주성분 변수를 원래변수들의 선형결합으로 추출하는 기법
(일부 주성분에 의한 변수 변동을 설명하기 위한 목적)
판별분석 집단을 구별할 수 있는 판별규칙/함수
데이터마이닝 대용량의 데이터로부터
데이터 내의 패턴/관계/규칙 탐색
통계적인 기법 모델화를 통한
유용한 정보를 찾아내는 과정
분류모델 로지스틱 회귀분석/판별분석

트리기반방법(CART 알고리즘)
: 의사결정규칙에 따라서 집단을 소집단으로 분류  
 독립변수 이분화 > 이진트리 형태 > 분류 예측

최적화기법(서포트벡터머신)
: 초평면을 데이터 분리점을 지정해 이진선형 분류

기계학습(역전파 알고리즘)
: 가중치 갱신을 통한 오차 최소화를 반복 수행
예측모델 회귀분석
: 적합도 측정

의사결정나무
: 분류 및 예측 모형, 변수모형 분석 전 이상값 검색

시계열분석

인공신경망
군집화모델 계층적(응집/분할분석법)
: 군집 수 지정 X -> 단계적 군집결과 산출
 
비계층적(K-평균군집화)
: 군집 수 지정 O -> 객체를 한 군집으로 배정
  K개 군집의 중심좌표
연관규칙모델 장바구니 분석
:  지지도, 신뢰도, 향상도를 통해 
   동시에 발생하는 사건/항목 간 규칙을 수치화함
   상품배열/카탈로그/교차판매 적용
머신러닝 목적변수(반응변수) 존재유무에
따라 
지도학습/비지도학습/
강화학습/준지도학습
지도학습 정답 레이블(Lable)이 포함된 데이터로 
설명변수와 목적변수간의 관계성을 표현함 
인식/분류/진단/예측 등의 문제해결

로지스틱 회귀

인공신경망 분석

의사결정나무

서포트백터머신(SVM)

랜덤 포레스트
: 의사결정나무의 분산이 크다는 단점 보안

감성분석
비지도학습 정답 레이블이 없는 데이터
예측보다, 현상설명/특징도출/패턴도출 문제
사전정보가 없는 상태에서 유용한 정보와 패턴을 발견함

군집화(k-means, SOM, 계층군집 등)
- 자기조직화 지도(SOM)
  : 비지도 학습기반 클러스터링 기법
    차원축소와 군집화 동시 진행 

차원축소(주성분분석, 선형판별분석)

연관분석

자율학습 인공신경망

 

 

  • 데이터 특성 : 데이터의 특성에 따라 적용 가능한 분석모형이 다름
데이터 유형 종속변수
 종속범주(Y) 종속변수 없음
연속형 종속변수 범주형 종속범주
독립
변수
(X)
연속형 회귀분석 트리 모형
인공신경망
SVR
KNN
로지스틱 회귀분석 트리모형
인공신경망
SVM
KNN
판별분석
주성분 분석
군집 분석
범주형 회귀분석
t-test
ANOVA
트리모형
인공신경망
로지스틱 회귀분석
카이제곱검정
트리모형
인공신경망
나이브베이즈
연관분석
연속형
+
범주형
회귀분석
트리모형
인공신경망
트리모형
인공신경망
상관분석

 

   (2) 분석 모형 정의 

  • 정의 : 선정한 분석 모형을 데이터에 적용하기 위한 상세 정의 단계
  • 주의점 : 적절한 모형 정의가 아니면 과소적합 및 과대적합으로 인한 오류 및 편향 발생
  • 과정 : 분석모형의 성능에 영향을 미치는 변수선택, 하이퍼파라미터 튜닝 등
  • 분석모형의 성능에 영향을 미치는 변수 선택

 

 

 

 

  • 변수선택 :  모형을 구성하는 변수들을 식별하고 구조화하는 과정임

                     (차원축소, 파생변수 생성, 변수 변환, 불균형 처리등을 통해 유의변수 식별 및 생성)

변수 선택법 설명
전진 선택법 상관관계가 큰 변수부터 순차적으로 모형에 추가하여 변수 추가
후진 제거법 모든 독립변수를 추가한 모형에서 상관관계가 적은 변수부터 순차적으로 제거하는 방법
단계적 선택법 전진 선택법으로 순차적으로 변수를 추가하면서
중요도가 약해진 변수를 후진 제거법으로 제거하는 방법

* 주의점 
  - 반복된 검정 수행으로 1종 오류 위험이 높음
  - 변수 선택을 위한 유의수준을 통제하기 어려움
  - 변수 간 상관관계의 영향을 받음
  •  변수선택 대안 

       - 전체 변수 사용 또는 전체 조합 비교

       - 도메인 지식 기반 변수 선택

       - Lasso, Ridge 등 제약 조건을 주는 모델 사용

 

  • 하이퍼파라미터 튜닝

      :  모형의 성능에 간접적인 영향을 미치는 하이퍼파라미터를 조정하여 분석모형의 성능 최적화 방법

파라미터 하이퍼파라미터
- 모형 내부 요소
- 모형의 성능에 직접적인 영향을 미침
- 데이터 학습을 통해 자동으로 결정
- 모형 외부 요소
- 파라미터 결정을 위해 사용 됨
- 사용자가 경험적으로 결정
  • 하이퍼파라미터 튜닝 방법
매뉴얼 서치 그리드 서치 랜덤서치
사용자의 직감 또는 경험에 근거하여 
하이퍼파라미터를 조정하는 방법
그리드 서치 또는 랜덤서치를 
먼저 수행후 추가적으로 
세부 조정에 사용하는 것이 적절함
모든 조합을 시도하여 최적의 파라미터값을 찾는 방법임
후보 내에서 가장 좋은 결과를 얻지만
후보수가 증가하면 
계산 시간이 기하급수적으로 증가함
후보 값의 범위를 지정하고 
무작위 표본추출을 통해 
생성된 조합을 시도하여 최적의 파라미터를 찾는 방법
그리드 서치의 단점을 보완한 방법
불필요한 값의 중복을 줄이고 
상대적으로 중요한 값을 많이 탐색함
  • 분석모형 정의 고려사항

      - 과소적합 : 모델이 간단하면 학습이 부족하여 실제 성능이 떨어짐

      - 과대적합 : 모델이 복잡하면 지나친 차수 증가로 실제 데이터 성능 떨어짐

      - 부적합 모형 현상 

         - 모형 선택 오류 : 적합하지 않은 모형

         - 변수 누락 : 모델 생성 시 관계있는 변수를 누락

         - 부적합 변수 생성 : 관련 없는 변수를 포함(편향, 과대적합)

         - 동시 편향 : 종속변수가 연립방정식의 일부인 경우  

 

 (3) 분석 구축의 절차 | 요건정의 > 모델링 > 검증 및 테스트 > 적용

  • 요건 정의 : 기획단계에서 도출한 내용를 구체적인 요구사항정의 및 분석추진계획 수립함
상세 절차 설명
요구사항 도출 기획단계보다 상세한 분석 요건 도출/분석/명세화
예상이슈, 기대효과, 제약사항 등 사전 정의 및 협의
분석 추진 계획 수립 분석 가능성 검토
분석 환경 설정
분석계획서 및 WBS 작성(우선순위)
* WBS - 프로젝트의 범위 및 산출물을 구체적으로 분할한 계층적 구조의미
요구사항 확정 최종 요건 설정(기획안 공유/확정)
  • 모델링 : 정의된 요건에 따라 본격적인 분석을 수행함
상세 절차 설명
데이터 마트 설계  및 구축 분석 대상 데이터 수집
데이터 전처리 및 마트 설계 개발
탐색적 분석 및 유의변수 도출 탐색적 데이터 분석
사전모형 기반 유의 변수 도출
모델링 적절한 모형 후보를 선정
평가를 위한 데이터 분할
모형 학습 및 최적화
모델 성능 평가 평가지표 기반 성능 평가
: 정확도/정밀도/재현율/향상도 

모형 학습 선정
  • 검증 및 테스트 : 데이터 분리 > 자체 검증 > 실제 테스트 결과 도출
상세 절차 설명
운영 환경 테스트 가상 운영 환경에 적용하여 테스트
테스트 결과를 모형에 반영하고 반복 테스트 수행
비즈니스 영향도 평가 투자대비효과(ROI)를 정량화하여 비즈니스 영향도 평가
* 투자비용대비 재무 효과가 200~300% 이상 증명
  (총소유비용(TCO)/투자대비효과/순현재가치/내부수익률/투자회수기간)
   모델링 성과 : 재현율 증가 or 향상도 개선
  • 적용 : 분석 결과를 실제 운영 환경에 적용하는 단계(일, 주, 월 단위)
상세 절차 설명
운영 시스템 적용 실제 운영 환경에 적용
자동 모니터링 프로세스 수립
주기적 모델 업데이트 모델링 결과를 정기적으로 재평가
필요시 분석 모형 재학습

 

2. 분석 환경 구축

   (1) 분석 도구 선정

  • 분석도구 정의 : 분석 도구는 데이터 사이언스. 통계분석, 기계학습, 비즈니스 분석을 위해 사용하는 분석
  • R
  • Python 
  • SAS & SPSS

   (2) 데이터 분할

  • 데이터 분할 : 학습용/검증용/평가용 데이터로 분할
  • 목적 : 분석 모형의 과적합을 방지, 일반화 성능 향상, 2종오류(잘못된 귀무가설 채택)을 방지
  • 기법
홀드아웃(hold-out) K-fold 교차검증 부트스트랩
- 랜덤 추출을 통한 데이터 분할
- 학습 : 검증 : 테스트 = 6:2:2 || 8:2
- 랜덤 추출을 통한 데이터 편향으로 
성능 평가의 신뢰성이 떨어질 수 있음

- 테스트 데이터를 제외한 데이터를 무작위로 중복되지 않는 K개의 데이터로 분할함
- 학습: 검증 = (K-1) : 1
- 검증데이터를 바꾸며 K번 반복해 분할된 데이터가 한 번씩 검증 데이터로 사용됨
- 데이터의 분포가 치우쳐 있거나 데이터 건수가 너무 적을 때 가능한 방법
- 학습 : 검증 = 63.2 : 36.8
- 부트스트랩 샘플링은 복원추출을 통해 전체데이터와 동일한 사이즈의 샘플데이터를 추출한다

 

 

 

참고

2022 빅데이터 분석기사 필기 한권완성

빅데이터분석기사필기 수제비 2021