Ordinary existence

engineer 감각이 있는 Data researcher

sun about me

자격증/빅데이터분석기사

[빅데이터분석기사 필기] 3과목 빅데이터 모델링 - 분석 기법 적용(1)

Mithumbsup 2022. 4. 2. 18:08

[3과목 학습목표] :  통계적 분석을 기반으로 하는 빅데이터 분석 모델과 데이터 마이닝을 기반으로 하는 

                        빅데이터 분석 모델 설계 및 기법 적용 방법 이해 

 

[3과목-2 분석 기법 적용]   

                 > 1. 분석기법 학습

                    2. 고급분석기법 학습


1. 분석기법

(1) 회귀분석

  • 정의 : 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정하는 통계분석 기법
  • 식 :   y = ax +b  형태의 선형적인 관계를 지니며, x와 y 값은 무한대의 값을 지님
  • 적용 : 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측/추론하는 정규분포를 띈 방법
  • 연속형변수, 범주형변수(더미변수 변환) 가능
  • 종속 변수의 차이로 구분하면 회귀분석과 로지스틱 회귀분석으로 구분할 수 있음
  • 회귀 모형 가정 : 4가지 가정( 선형성, 독립성, 등분산성, 정규성 )  + 비상관성
가정 설명
선형성 - 독립변수와 종속변수는 선형적
- 종속변수는 독립변수와 회귀계수의 선형적 조합으로 표현 가능
  (일정 크기로 변화)
- 산점도를 통해 선형성을 확인 가능
독립성 - 단순 회귀분석에서는 잔차와 독립변수의 값이 서로 독립(관련없음)
- 다중 회귀분석에서는 독립변수 간에 상관성 없이 독립(관련없음)
등분산성 - 잔차의 분산이 독립변수와 무관하게 일정
- 잔차가 고르게 분포해야 함 
비상관성 - 관측치들의 잔차들끼리 상관이 없음
정규성 - 잔차항이 정규분포의 형태를 띔
- 잔차항의 평균은 0이고 분산이 일정함
  •  회귀모형 검증
검증 변수
통계적 유의미 F-통계량, p-value(유의수준: 0.05보다 작으면 통계적으로 유의미)
회귀계수 유의미 T-통계량, p-value(유의수준: 0.05보다 작으면 통계적으로 유의미), 신뢰구간
모형의 설명력 결정계수(R²: 0~1 값을 지님, 높은 값을 가질수록 추정된 회귀식의 설명력이 높음)
모형의 데이터 적합성 잔차 그래프, 회귀진단
회귀 모형 가정 만족 선형성, 독립성, 등분산성, 정규성, 비상관성

 

  • 회귀 분석 유형 : 독립변수 및 종속변수의 개수 및 특성에 따라 분류됨
  • 단순선형 회귀 분석 :  yi​=β0​+β1​x1​+εi​ ,   i=1, 2, ..., n

     - 독립변수와 종속변수가 한개씩 있으며 오차항이 있는 선형관계로 이뤄짐

 

     1) 회귀계수의 추정

        - 회귀계수는 최소제곱법(최소자승법)을 사용하여 추정함

        * 최소제곱법(최소자승법) : 측정값을 기초로 해서 제곱 합을 만들고

                                           그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방식임

     2) 회귀분석의 검정

        - 회귀계수  β1​이 0이면 입력변수와 출력변수는 인과관계가 없음(의미없음)

        - 결정계수(R²)은 회귀 모형의 설명력을 보여주는 지표이며 회귀선의 정확도를 평가함

          전체제곱합에서 회귀제곱합의 비율

                             * 오차 : 모집단에서 실제값과 회귀선의 차이 

                                잔차(편차) : 표본에서 나온 관측값과 회귀선의 차이

 

       3) 회귀직선의 적합도 검토

        - 결정계수를 통해 회귀식 타당성 검토( 1에 가까울수록 설명력 향상) 

        - 다변량 회귀 분석에서는 독립변수의 수가 많아지면 결정계수가 커지므로 수정된 결정계수 사용

 

  • 다중선형 회귀 분석(다변량 회귀 분석) : yi​=β0​+β1​x1​+βk​xk +εi​ ,   i=1, 2, ..., n

     1) 모형의 통계적 유의성 : F-통계량, p-value <0.05 

                                      (F-통계량이 크면 p-value가 0.05 보다 작아져 귀무가설을 기각함으로 유의하다)

 

     2) 다중선형 회귀분석 검정 

구분 설명
회귀계수 유의성 T-통계량 > 모든 회귀계수의 유의성이 검증되어야 한다. 
결정계수(R²) 회귀 모형의 설명력을 보여주는 지표이며 회귀선의 정확도를 평가함
전체제곱합에서 회귀제곱합의 비율
모형의 적합성 잔차와 종속변수의 산점도를 통해 확인함
다중공선성 설명 변수들 사이에 선형관계가 존재하여 회귀계수의 추정에 부정적인 영향 확인
문제가 있는 변수를 제거하거나 주성분 회귀 모형을 적용함

 

  • 규제가 있는 회귀 분석(정규화)

      : 다중공선성 문제로 인해 모델의 가중치를 제한하여 차수를 감소시키는 규제를 적용함

  릿지(Ridge) 회귀, L2-Norm 라쏘(Rasso) 회귀 , L1-Norm 엘라스틱넷(elastic net) 회귀
목적 높은 상관관계가 있는 변수
검정오차(또는 MSE)가
최소인 모델을 찾는 것
변수 선택을 통해 변수 간
검정오차(또는 MSE)가
최소인 모델을 찾는 것
 
방법 제곱 규제항을
비용함수에 추가하며
모델의 훈련이 끝나면
모델의 성능을
규제가 없는 성능 지표로 평가함.

a는 모델의 규제 정도로 
값이 커질수록
모든 가중치가 0에 수렴한다. 
절대값 규제항을
비용함수에 추가함




a는 중요하지 않은 변수들의 
가중치가 0이 되어서 제거됨으로 
해당 변수가 없는 것으로 처리됨
릿지(Ridge) 와 라쏘(Rasso) 회귀의 절충안임




두 회귀의 규제항을
단순히 더해서 사용한
혼합 비율을 조절하여
어느 방식의 비중을 조절할지 선택함
규제명 L2 규제 
모든 파라미터 제곱의 크기를 
규제하는 방식으로 
큰 가중치를 제약하여 
가중치 값을 널리 퍼지도록 함



L1 규제
가중치 벡터를 0으로 규정하는 방식
의미 있는 변수만을 선택하는 효과

다중공선성이 있는 경우에는
다중공선성이 발생하는 변수그룹의
모든 변수가 제거되는 경우 발생
릿지 회귀보다 성능이 줄어들수있음
 

 

(2) 로지스틱 회귀분석

  • 정의 : 독립변수의 선형결합을 이용해 사건의 발생 여부를 예측하며 

               종속변수가 범주형일 때 사용하는 이항분포를 띄는 회귀분석이다

 

  • y의 값을 0~1(확률 P) 사이의 값을 갖게 하고 두 가지로 분류하려는 과정으로 수식변환과정 필요

 

  • 모형 적합성 
구분 설명
모형의 유의성 - 모형이 설명하지 못하는 데이터의 정도를 의미하는 이탈도를 통해 검증
- 이탈도가 적을수록 통계적으로 유의함
계수의 유의성 - 왈드(ward) 검정을 통해 독립변수가 종속변수에 미치는 영향을 확인
- 검정통계량인 z-value 와 p-value 가 유의수준보다 작으면 계수가 유의함
모형의 설명력 - 로지스틱 회귀모형은 보통 결정계수가 낮게 나오는 편임으로
  의사결정계수를 사용하는 것이 일반적음
- AIC값이 작을수록 설명력이 좋음

 

 

(3) 의사결정나무 분석

  • 정의 : 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고 분할 기준 속성에 따라 트리형태로 모델링하는 

              분류/예측 모델 

  • 활용 : 연속적으로 발생하는 의사결정 문제를 시각화해서 의사결정 시점과 성과 파악이 용이함   

              예시)- 은행에서 신용평가를 진행할 때 부적격 판정 결과 대상자에게 부적격 이유를 설명할때 

                       의사결정나무의 해석력에 집중함 

                     - 상품 구매 고객의 모집방안을 예측하는 경우에 의사결정나무의 예측력에 집중

  • 분석과정
과정 과정내용
의사결정나무의 성장 - 데이터의 구조에 따라 분리기준과 정지규칙을 설정한다
- 각 마디의 최적 분류규칙과 적절한 정지규칙을 만족하면 나무의 성장을 중단함
- 불순도 감소량을 가장 크게 하는 분할을 진행함
정지규칙 - 더 이상 트리가 분리되지 않도록 하는 규칙
- 정지 규칙이 없다면 각 끝마디가 하나의 범주만을 갖는 과적합이 발행함
- 트리의 깊이를 제한하거나 각 마디에 속하는 데이터 수에 따라 결정함
가지치기  - 불필요한 가지를 제거하여 모형의 복잡도를 줄이느 과정
- 검증용 데이터를 활용해 예측 정확도를 산출하여 가지를 제거하거나, 
   규칙의 타당성을 검토하여 타당성이 없는 것을 제거함
노드의 분리기준 - 마디의 순수도는 증가하고 불순도는 감소하는 방향
  • 노드의 분리기준
종속변수 알고리즘 분류기준 설명
이산형 CHAID 카이제곱 통계량 - 분류한 두 마디가 유의미한 차이가 있음을 증명하기위해 
  두 마디가 동질적이라는 귀무가설을 기각해야함
- 카이제곱 통계량의 p-value가 가장 작아지도록 함 
CART 지니지수 - 지니지수가 작을수록 불순도가 낮아짐
C4.5  엔트로피 지수 - 엔트로피지수가 작을수록 불순도가 낮아짐
연속형 CHAID ANOVA F-통계량
(분산분석
 F-통계량의 p-value)
- F-통계량의 p-value가 작아지는 방향으로 가지 분할을 수행함
CART 분산 감소량 - 분산의 감소량이 커지면 분산이 감소함
- 분산의 감소량이 커지는 방향으로 가지 분할을 수행함
  • 장 단점
구분 항목 설명
장점 해석의 용이성 - 나무모형으로 사용자의 이해가 쉬움
- 새로운 개체분류를 위해 뿌리마디부터 끝마디까지 따라가면 되므로 
  새로운 데이터를 모형에 적용하기 쉬움
- 어떤 변수가 목표변수를 설명하기에 용이한지 쉽게 파악
상호작용 효과의 해석 가능 - 두 개 이상의 변수의 영향 정도를 쉽게 파악
비모수적 모형 - 선형성, 정규성, 등분산성 등의 가정을 필요로 하지 않는 비모수적 방법
- 이상값에 민감하지 않음
유연성, 정확도가 높음 - 대용량 데이터에서도 빠르게 생서
- 수치형 변수와 버무형 변수 모두 사용 가능
- 모형 분류 정확도가 높음
단점 비연속성 - 연속형 변수를 비연속적 값으로 취급하여 분리 경계점에서는 
  예측오류가 커짐
선형성 결여 - 각 변수의 고유한 영향력을 해석하기 어려움
비안정성 - 학습용 자료에 의존하여 과대적합 발생 가능성이 큼
- 검증용 데이터를 활용한 교차 타당성 평가를 진행하는 과정이 큼

 

 

 

 

참고

2022 빅데이터 분석기사 필기 한권완성

빅데이터분석기사필기 수제비 2021