Ordinary existence

engineer 감각이 있는 Data researcher

sun about me

자격증/빅데이터분석기사

[빅데이터 분석기사 실기] 4회차 실기문제 메모메모

Mithumbsup 2022. 6. 29. 21:55

이번에도 늘 그렇듯 부랴부랴 하루전에 4회차 시험을 준비했다..사람은 잘 안변해,,

빅분기 실기는 문제유형을 좋은 정보를 나눠주시는 친절한 분들이 많아서

시험때까지 얼마남지않은 초조한 시간에 정리해준 자료들을 보면서 도움을 많이 받았다 

또 보게 될 수도 있으니까,,, 메모메모


실기도 사실상 암기와 비슷하다

전처리와 모델링 관련된 필수 라이브러리는 잘 정리해서 잘 외우는 게 중요하다 생각되었다

 

1. 통계 용어와 산술식에 대해서 문제에서 이해하고 적용해야 됨으로
    한글용어랑 영어용어 구분없이 잘 정리해야한다. 
    ex) 표준편차 -> std(),  분산 -> var(), 중앙값 -> median() , 평균 -> mean(), IQR -> quantial()


2. 작업형에서 사용될 핵심 패키지들과 몇가지 내부 라이브러리들은 눈에 익숙해지도록 자주 보거나 암기해두는 게 좋다

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
 #핵심  |   pandas, numpy, sklearn       
 
 # 데이터프레임, 연산 지원
 import pandas as pd  
 pd.DataFrame()
 pd.to_csv() 
 ["dd"].std()
 
 # 수치계산 
 import numpy as np   
 
 # 전처리, 모델링 핵심 라이브러리 다수 포함
 from sklearn import *
 # 정규화 및 데이터 라이브러리
 from sklearn.preprocessing     import minmax_scale    
 # 데이터 분할 라이브러리
 from sklearn.model_selection   import train_test_split
 # 데이터모델링&하이퍼파라미터튜닝
 from sklearn.ensemble          import RandomForestClassifier 
 # 데이터모델링 평가지표 라이브러리
 from sklearn.metrics           import f1-score
cs

 

3. 하지만 암기는 외운대로만 적용하면 데이터 유형에 따라 변수가 발생할 수 있는 실기에서  문제가 발생함으로 시험장에서 패키지 도움닫기로 제공하는 help(), dir(),  __all__  3대장 사용방법을 꼭 곁들여서 연습하기! 오른쪽 버튼 누르고 메모장에 붙여서 헷갈리는 호다닥 찾는다면 마음이 싹 놓인다

 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# __all__ 패키지 안에 어떤 라이브러리들이 있는 지 알고싶다면 리스트타입으로 반환
import sklearn
print(sklearn.__all__)
# ["preprocessing", .........]
 
# dir() 패키지 안에 어떤 라이브러리들이 있는 지 알고싶다면 리스트타입으로 반환
import sklearn.preprocessing
print(dir(sklearn.preprocessing))
# ["LabelEncoder",.........]
 
# help() 패키지의 특정 라이브러리의 메서드 사용방법을 확인하기 위한 파인더
from sklearn.preprocessing import LabelEncoder   # help는 from 으로 검색이 안될때가 있어서 아래에 import를따로 해줘야함    
import sklearn.preprocessing 
# dir(), __all__ 로 사용할 라이브러리를 정해두고 검색할때 유용함
print(help(sklearn.preprocessing.LabelEncoder))
cs

 

 

4. 모델링을 암기할때는 순서위주로 자연스럽게 메모메모 평소처럼 라이브러리를 맨 위에 쭈루루 import 하기 보다 각 단계에 맞춰서 패키지를 이해하려했다

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# 0. 변수 정리 및 필요없는 변수 지우기
train 셋의 타겟변수가 별도로 분리되어있는지 아닌지에 따라 살펴보고 예측데이터를 정의해야한다!
# 1. 수치형과 범주형 데이터 파악하기
 
# 2. 각각 정규화를 진행한다
# 2.1 수치형 변수 스케일링
from sklearn.preprocessing  import StandardScaler
# 2.2 범주형 데이터
from sklearn.preprocessing import LabelEncoder
# 3. 결측값을 확인하고 평균값 또는 중앙값으로 구한다
 
# 5. 테스트데이터와 검증데이터로 구분하여 정리함
from sklearn.model_selection import train_test_split
x_tr,x_val,y_tr,y_val = train_test_split(train,target,test_size=0.1,random_state=1204)
 
# 6. 모델링은 ensemble 하이퍼파라미터로 튜닝을 진행한다.
from sklearn.ensemble import RandomForestClassifier
from xgboost
 
# 7. 검증평가를 진행함 metrics 
from sklearn.metrics import roc_auc_score
 
# 8. test 데이터 예측
cs

 


<실기 문제유형  참고 사이트 정리>

Big Data Certification KR
python 과 R 두가지 코드 모두 적용할 수 있는 좋은사이트!
캐글데이터를 활용해서 핵심유형이랑 기초 문법 도서, 강의까지 한번에 정리되어있다 별 100만개  

 

DataManim
실기에서 중요한 단답형과 작업형 둘다 테스트해볼 수 있다
작업형 문제는 주말에 스터디를 직접 운영해서 녹화본 강의까지 올려주시기도 하셨던듯!  
단답형은 앱까지 개발해 주셧기에 시험보기전에 훅훅 정리할 수 있었어 별 100만개 
 

준비 방법 — DataManim

Contents

www.datamanim.com

 

작업형 2유형 말고도 모델링에 참고하면 좋을 튜닝방법
캐글예제
 

RF classifier w/ GridSearch [roc_auc=75.59%]

Explore and run machine learning code with Kaggle Notebooks | Using data from Commerce Shipping Data (competition form)

www.kaggle.com