[3과목 학습목표] : 통계적 분석을 기반으로 하는 빅데이터 분석 모델과 데이터 마이닝을 기반으로 하는
빅데이터 분석 모델 설계 및 기법 적용 방법 이해
[3과목-2 분석 기법 적용]
> 1. 분석기법 학습
2. 고급분석기법 학습
1. 분석기법
(1) 회귀분석
- 정의 : 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정하는 통계분석 기법
- 식 : y = ax +b 형태의 선형적인 관계를 지니며, x와 y 값은 무한대의 값을 지님
- 적용 : 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측/추론하는 정규분포를 띈 방법
- 연속형변수, 범주형변수(더미변수 변환) 가능
- 종속 변수의 차이로 구분하면 회귀분석과 로지스틱 회귀분석으로 구분할 수 있음
- 회귀 모형 가정 : 4가지 가정( 선형성, 독립성, 등분산성, 정규성 ) + 비상관성
가정 | 설명 |
선형성 | - 독립변수와 종속변수는 선형적 - 종속변수는 독립변수와 회귀계수의 선형적 조합으로 표현 가능 (일정 크기로 변화) - 산점도를 통해 선형성을 확인 가능 |
독립성 | - 단순 회귀분석에서는 잔차와 독립변수의 값이 서로 독립(관련없음) - 다중 회귀분석에서는 독립변수 간에 상관성 없이 독립(관련없음) |
등분산성 | - 잔차의 분산이 독립변수와 무관하게 일정 - 잔차가 고르게 분포해야 함 |
비상관성 | - 관측치들의 잔차들끼리 상관이 없음 |
정규성 | - 잔차항이 정규분포의 형태를 띔 - 잔차항의 평균은 0이고 분산이 일정함 |
- 회귀모형 검증
검증 | 변수 |
통계적 유의미 | F-통계량, p-value(유의수준: 0.05보다 작으면 통계적으로 유의미) |
회귀계수 유의미 | T-통계량, p-value(유의수준: 0.05보다 작으면 통계적으로 유의미), 신뢰구간 |
모형의 설명력 | 결정계수(R²: 0~1 값을 지님, 높은 값을 가질수록 추정된 회귀식의 설명력이 높음) |
모형의 데이터 적합성 | 잔차 그래프, 회귀진단 |
회귀 모형 가정 만족 | 선형성, 독립성, 등분산성, 정규성, 비상관성 |
- 회귀 분석 유형 : 독립변수 및 종속변수의 개수 및 특성에 따라 분류됨
- 단순선형 회귀 분석 : yi=β0+β1x1+εi , i=1, 2, ..., n
- 독립변수와 종속변수가 한개씩 있으며 오차항이 있는 선형관계로 이뤄짐
1) 회귀계수의 추정
- 회귀계수는 최소제곱법(최소자승법)을 사용하여 추정함
* 최소제곱법(최소자승법) : 측정값을 기초로 해서 제곱 합을 만들고
그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방식임
2) 회귀분석의 검정
- 회귀계수 β1이 0이면 입력변수와 출력변수는 인과관계가 없음(의미없음)
- 결정계수(R²)은 회귀 모형의 설명력을 보여주는 지표이며 회귀선의 정확도를 평가함
전체제곱합에서 회귀제곱합의 비율
* 오차 : 모집단에서 실제값과 회귀선의 차이
잔차(편차) : 표본에서 나온 관측값과 회귀선의 차이
3) 회귀직선의 적합도 검토
- 결정계수를 통해 회귀식 타당성 검토( 1에 가까울수록 설명력 향상)
- 다변량 회귀 분석에서는 독립변수의 수가 많아지면 결정계수가 커지므로 수정된 결정계수 사용
- 다중선형 회귀 분석(다변량 회귀 분석) : yi=β0+β1x1+βkxk +εi , i=1, 2, ..., n
1) 모형의 통계적 유의성 : F-통계량, p-value <0.05
(F-통계량이 크면 p-value가 0.05 보다 작아져 귀무가설을 기각함으로 유의하다)
2) 다중선형 회귀분석 검정
구분 | 설명 |
회귀계수 유의성 | T-통계량 > 모든 회귀계수의 유의성이 검증되어야 한다. |
결정계수(R²) | 회귀 모형의 설명력을 보여주는 지표이며 회귀선의 정확도를 평가함 전체제곱합에서 회귀제곱합의 비율 |
모형의 적합성 | 잔차와 종속변수의 산점도를 통해 확인함 |
다중공선성 | 설명 변수들 사이에 선형관계가 존재하여 회귀계수의 추정에 부정적인 영향 확인 문제가 있는 변수를 제거하거나 주성분 회귀 모형을 적용함 |
- 규제가 있는 회귀 분석(정규화)
: 다중공선성 문제로 인해 모델의 가중치를 제한하여 차수를 감소시키는 규제를 적용함
릿지(Ridge) 회귀, L2-Norm | 라쏘(Rasso) 회귀 , L1-Norm | 엘라스틱넷(elastic net) 회귀 | |
목적 | 높은 상관관계가 있는 변수 간 검정오차(또는 MSE)가 최소인 모델을 찾는 것 |
변수 선택을 통해 변수 간 검정오차(또는 MSE)가 최소인 모델을 찾는 것 |
|
방법 | 제곱 규제항을 비용함수에 추가하며 모델의 훈련이 끝나면 모델의 성능을 규제가 없는 성능 지표로 평가함. a는 모델의 규제 정도로 값이 커질수록 모든 가중치가 0에 수렴한다. |
절대값 규제항을 비용함수에 추가함 a는 중요하지 않은 변수들의 가중치가 0이 되어서 제거됨으로 해당 변수가 없는 것으로 처리됨 |
릿지(Ridge) 와 라쏘(Rasso) 회귀의 절충안임 두 회귀의 규제항을 단순히 더해서 사용한 혼합 비율을 조절하여 어느 방식의 비중을 조절할지 선택함 |
규제명 | L2 규제 모든 파라미터 제곱의 크기를 규제하는 방식으로 큰 가중치를 제약하여 가중치 값을 널리 퍼지도록 함 |
L1 규제 가중치 벡터를 0으로 규정하는 방식 의미 있는 변수만을 선택하는 효과 다중공선성이 있는 경우에는 다중공선성이 발생하는 변수그룹의 모든 변수가 제거되는 경우 발생 릿지 회귀보다 성능이 줄어들수있음 |
(2) 로지스틱 회귀분석
- 정의 : 독립변수의 선형결합을 이용해 사건의 발생 여부를 예측하며
종속변수가 범주형일 때 사용하는 이항분포를 띄는 회귀분석이다
- y의 값을 0~1(확률 P) 사이의 값을 갖게 하고 두 가지로 분류하려는 과정으로 수식변환과정 필요
- 모형 적합성
구분 | 설명 |
모형의 유의성 | - 모형이 설명하지 못하는 데이터의 정도를 의미하는 이탈도를 통해 검증 - 이탈도가 적을수록 통계적으로 유의함 |
계수의 유의성 | - 왈드(ward) 검정을 통해 독립변수가 종속변수에 미치는 영향을 확인 - 검정통계량인 z-value 와 p-value 가 유의수준보다 작으면 계수가 유의함 |
모형의 설명력 | - 로지스틱 회귀모형은 보통 결정계수가 낮게 나오는 편임으로 의사결정계수를 사용하는 것이 일반적음 - AIC값이 작을수록 설명력이 좋음 |
(3) 의사결정나무 분석
- 정의 : 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고 분할 기준 속성에 따라 트리형태로 모델링하는
분류/예측 모델
- 활용 : 연속적으로 발생하는 의사결정 문제를 시각화해서 의사결정 시점과 성과 파악이 용이함
예시)- 은행에서 신용평가를 진행할 때 부적격 판정 결과 대상자에게 부적격 이유를 설명할때
의사결정나무의 해석력에 집중함
- 상품 구매 고객의 모집방안을 예측하는 경우에 의사결정나무의 예측력에 집중
- 분석과정
과정 | 과정내용 |
의사결정나무의 성장 | - 데이터의 구조에 따라 분리기준과 정지규칙을 설정한다 - 각 마디의 최적 분류규칙과 적절한 정지규칙을 만족하면 나무의 성장을 중단함 - 불순도 감소량을 가장 크게 하는 분할을 진행함 |
정지규칙 | - 더 이상 트리가 분리되지 않도록 하는 규칙 - 정지 규칙이 없다면 각 끝마디가 하나의 범주만을 갖는 과적합이 발행함 - 트리의 깊이를 제한하거나 각 마디에 속하는 데이터 수에 따라 결정함 |
가지치기 | - 불필요한 가지를 제거하여 모형의 복잡도를 줄이느 과정 - 검증용 데이터를 활용해 예측 정확도를 산출하여 가지를 제거하거나, 규칙의 타당성을 검토하여 타당성이 없는 것을 제거함 |
노드의 분리기준 | - 마디의 순수도는 증가하고 불순도는 감소하는 방향 |
- 노드의 분리기준
종속변수 | 알고리즘 | 분류기준 | 설명 |
이산형 | CHAID | 카이제곱 통계량 | - 분류한 두 마디가 유의미한 차이가 있음을 증명하기위해 두 마디가 동질적이라는 귀무가설을 기각해야함 - 카이제곱 통계량의 p-value가 가장 작아지도록 함 |
CART | 지니지수 | - 지니지수가 작을수록 불순도가 낮아짐 | |
C4.5 | 엔트로피 지수 | - 엔트로피지수가 작을수록 불순도가 낮아짐 | |
연속형 | CHAID | ANOVA F-통계량 (분산분석 F-통계량의 p-value) |
- F-통계량의 p-value가 작아지는 방향으로 가지 분할을 수행함 |
CART | 분산 감소량 | - 분산의 감소량이 커지면 분산이 감소함 - 분산의 감소량이 커지는 방향으로 가지 분할을 수행함 |
- 장 단점
구분 | 항목 | 설명 |
장점 | 해석의 용이성 | - 나무모형으로 사용자의 이해가 쉬움 - 새로운 개체분류를 위해 뿌리마디부터 끝마디까지 따라가면 되므로 새로운 데이터를 모형에 적용하기 쉬움 - 어떤 변수가 목표변수를 설명하기에 용이한지 쉽게 파악 |
상호작용 효과의 해석 가능 | - 두 개 이상의 변수의 영향 정도를 쉽게 파악 | |
비모수적 모형 | - 선형성, 정규성, 등분산성 등의 가정을 필요로 하지 않는 비모수적 방법 - 이상값에 민감하지 않음 |
|
유연성, 정확도가 높음 | - 대용량 데이터에서도 빠르게 생서 - 수치형 변수와 버무형 변수 모두 사용 가능 - 모형 분류 정확도가 높음 |
|
단점 | 비연속성 | - 연속형 변수를 비연속적 값으로 취급하여 분리 경계점에서는 예측오류가 커짐 |
선형성 결여 | - 각 변수의 고유한 영향력을 해석하기 어려움 | |
비안정성 | - 학습용 자료에 의존하여 과대적합 발생 가능성이 큼 - 검증용 데이터를 활용한 교차 타당성 평가를 진행하는 과정이 큼 |
참고
2022 빅데이터 분석기사 필기 한권완성
빅데이터분석기사필기 수제비 2021
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터 분석기사 실기] 4회차 실기문제 메모메모 (0) | 2022.06.29 |
---|---|
[빅데이터 분석기사 실기] 응시환경 체험 (0) | 2022.04.28 |
[빅데이터분석기사 필기] 4과목 빅데이터 결과 해석 - 분석 결과 해석 및 활용(2) (1) | 2022.04.07 |
[빅데이터분석기사 필기] 3과목 빅데이터 모델링 - 분석 기법 적용(2) (0) | 2022.04.07 |
[빅데이터분석기사 필기] 3과목 빅데이터 모델링 - 분석모형 설계 (0) | 2022.03.29 |