[4과목 학습목표] : 통계적 분석을 기반으로 하는 빅데이터 분석 모델과 데이터 마이닝을 기반으로 하는
빅데이터 분석 모델 설계 및 기법 적용 방법 이해
1. 분석 결과 해석
- 최종 선택한 분석 모형을 실제 업무에 적용하기 위해서 분석모형의 분석결과를 업무 담당자가 명료하게 이해해야함
- 분석결과가 비즈니스 업무에 어떤 인사이트와 이점을 줄 수 있는 지 파악하여 업무 담당자를 이해심켜야함
- 분석모형은 블랙박스 특성을 가지고 있어, 내부적으로 발생하는 다양한 단계와 로직으로 설명하기 어려움
- 설명력은 설명하기 쉬운 정도로, 설명력이 높은 분석은 업무담당자가 결과를 쉽게 이해할 수 있는 장점이 있음
- 설명력 높은 분석이라고 해서 정확도, 민감도 등의 성능 지표가 항상 우수하지 않음, 앙상블로 만들어 사용함
1) 분석 모형 해석
분석모형해석은 분석모형에서 어떤 독립변수가 사용되는지와
각 독립변수가 분석 모형에서 어느 정도의 중요도를 가지는지 살펴보는 과정임
해석방법은 아래와 같음
1. 처음부터 해석가능한 모형 구축하기
2. 분석 모형이 만들어진 후 변수중요도나 부분의존도 plot을 확인하기
- 해석가능한 모형(Interprretable models)
- 대표모형 : 선형회귀, 로지스틱 회귀, 의사결정나무
- 해석방법
선형회귀, 로지스틱 회귀 모형 -> 변수 가중치값 참고
의사결정나무 -> 각 분기점에서 사용된 기준을 참고
- 장점 : 분석 모형을 잘 구축하기만 하면, 간단하고 직관적으로 분석 모형을 해석할 수 있음
- 단점 : 해석 가능한 모형은 다른 알고리즘에 비해 상대적으로 예측 정확도가 낮음
- 순서 변수 중요도(Permutation feature importance)
- 정의 : 변수 중요도를 구하는 가장 대표적이자 직관적인 방법으로
특정 변수를 사용하지 않았을 때, 모형의 성능에 어느 정도의 손실을 주는 지 계산하여
변수 중요도를 파악하는 방법
- 방법 : 한 변수에 대해 그 변수의 값을 무작위로 섞어 분석 모형이 학습한 패턴을 지우는 효과를 통해
예측값들을 구함
예측값과 실제 예측값과의 차이를 구하여 해당 변수의 영향도를 계산함
- 부분 의존도 plot(PDP : partial Dependence Plot)
- 정의 : 의존도를 확인하고자 하는 변수를 한두개 선택한 후 나머지 변수들에 대해서 단순 평균을 취하여
해당 변수가 분석 모형에서 어떤 영향을 미치는지 확인하는 방법
전역적인(global) 모형 해석 방법임
- 방법 : 일반적으로 변수 중요도가 높거나 업무적으로 봤을 때 중요하다고 생각하는 적은 변수에 대해서만 적용
1. 선택된 변수의 값을 하나로 고정시킴
2. 학습 데이터의 다른 변수 값을 활용하여 결과 값의 평균을 구함
3. 이 작업 과정을 선택된 변수의 전체 범위에 대해 반복하여 값을 구함
2) 비즈니스 기여도 평가
비즈니스 기여도 평가는 최종 모형이 실제 업무에 적용되었을 때
어떤 개선 효과를 줄 수 있는 지 정량적으로 평가하는 과정임
대표적인 방법으로 ROI, NPV, IRR 이 있음
평가 지표 | 설명 |
투자 대비 효과 (ROI : Return On Investment) |
- 투자로 얻을 수 있는 순 효과를 총 비용으로 나눈 값 - 분석 프로젝트의 효과는 불량 검출률 N% 상승과 같이 나타낼 수 있음 |
순현재가치 (NPV : Net Present Value) |
- 투자 시작 시점부터 사업이 끝나는 시기까지 연도별로 편익과 비용을 현재 가치로 환산한 값 - 순현재가치 > 0 이면 타당성 있는 사업으로 판다함 - 순현재가치 = 편익의 현재가치 - 비용의 현재가치 |
내부 수익률 (IRR : Internal Rate of Return) |
- 순현재가치를 0으로 만드는 할인율을 말함 - 순현재가치를 계산하는 데 사용하는 할인율은 요구 수익률임 - IRR > 요구수익률이면 투자에 적합한 사업으로 판단함 |
총 소유 비용 (TCO : Total Cost of Ownership) |
- 자산을 획득할 때 드는 비용뿐 아니라 교육학습, 유지보수 등의 제반비용을 고려하여 산출되는 총 비용 |
투자 회수 기간 (PP ; Payback Period) |
- 프로젝트 시작에서부터 누적 현금흐름이 흑자로 돌아서는 시점까지의 기간을 말함 |
2. 분석 결과 시각화
1) 시각화
데이터에대한 이해를 돕기 위해 그림, 도형 등 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정
적절한 시각화 방법을 통해 효과적으로 분석 결과를 전달하고 인사이트를 발견하는 게 중요함
- 시각화의 목적
데이터 분석 | 많은 양의 자료를 그래프 형태로 정리함으로써 즉각적으로 데이터의 의미를 파악할 수 있게함 |
의사소통의 수단 | 데이터가 가지고 있는 의미와 인사이트를 다른 사람들과 공유할 수 있도록 하는 매개체임 |
- 시각화의 분류
구분 | 설명 |
데이터 시각화 | - 명확하고 효과적으로 정보를 전달하기 위함 - 미적 형태와 기능성 두가지를 고려 - 데이터들의 연결과 그룹핑을 표현 - 마인드맵, 뉴스 표현 |
정보 시각화 | - 대규모 비수량 정보를 시각적으로 표현 - 데이터 시각화보다 한 단계 더 가공함 - 분기도, 수지도, 히트맵 등 |
정보 디자인 | - 사람이 사용할 수 있는 효과적인 정보와 구조적이지 않은 기술 데이터를 시각적으로 표현 - 데이터 시각화, 정보 시각화, 인포그래픽 모두 정보 디자인에 포함 |
- 시각화 프로세스
정보 구조화, 정보 시각화, 정보 시각표현 3 단계로 구분됨
구분 | 설명 |
정보 구조화 | - 데이터를 수집하고 정제하면서 시각화의 목표가 될 만한 것을 발견하거나 설정함 - 데이터를 유사한 것끼리 묶거나 재배열을 함으로써 데이터 패턴을 찾아냄 - 대표 방법 데이터 멍잉(munging)과정 : 원 데이터를 정리 및 변환하여 패턴을 식별하거나 특정 정보를 추출하는 과정 |
정보 시각화 | - 시각화 툴을 사용하여 시각화에 필요한 그래프나 기본 틀을 만드는 과정 - 데이터 분석 프로젝트에서는 분석 결과를 효과적으로 표현하는 단계 |
정보 시각표현 | - 최종적으로 시각적인 완성을 하는 단계 - 정보 시각화 단계에서 시각화 도구를 활용했다면, 정보 시각표현 단계에서는 그래픽 요소를 활용하여 디자인을 완성시킴 |
2) 시간 시각화
시간 시각화는 시간에 따른 데이터의 변화를 보여주는 방법
시간 구간에 따른 값을 가지는 이산형 데이터의 경우) 막대그래프, 산점도
연속형 시계열 데이터의 경우) 선 그래프, 계단식 그래프, 영역차트
3) 공간 시각화
공간 시각화는 데이터를 지도 위에 표현하는 방법
지리 정보가 데이터를 이해하는 중요한 요소일 경우에 주로 사용함
방법) 등치 지역도, 도트 플롯맵, 버블 플롯맵, 등치선도, 카토그램
4) 관계 시각화
관계 시각화는 변수 간에 존재하는 연관성이나 분포, 패턴을 찾기 위해 사용하는 방법
방법) 산점도, 산점도 행렬, 버블차트 , 히스토그램
5) 비교 시각화
비교 시각화는 여러 변수의 값을 비교하고 싶을 때 사용하는 방법
방법) 히트맵, 스타 차트, 체르노프 페이스, 평행 좌표 그래프
6) 인포그래픽(Infographic)
인포그래픽 = 인포메이션(Information) + 그래픽(Graphic)
정보 디자인에 해당하는 시각화 방벙으로
원데이터(raw data)가 아닌
다양한 정보를 종합하여 디자인 의도에따라 그래픽으로 이해하기 쉽게 표현하는 시각화 방법임
- 인포그래픽 목적
객관적인 정보 전달 | 정보형 메세지 담기 예시) 지하철 노선도 |
설득형 메세지 담기 | 주장하는 바를 알리기 위함이 목적 예시) 사회적인 메세지를 담는 경우 |
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터 분석기사 실기] 4회차 실기문제 메모메모 (0) | 2022.06.29 |
---|---|
[빅데이터 분석기사 실기] 응시환경 체험 (0) | 2022.04.28 |
[빅데이터분석기사 필기] 3과목 빅데이터 모델링 - 분석 기법 적용(2) (0) | 2022.04.07 |
[빅데이터분석기사 필기] 3과목 빅데이터 모델링 - 분석 기법 적용(1) (2) | 2022.04.02 |
[빅데이터분석기사 필기] 3과목 빅데이터 모델링 - 분석모형 설계 (0) | 2022.03.29 |