이번에도 늘 그렇듯 부랴부랴 하루전에 4회차 시험을 준비했다..사람은 잘 안변해,,
빅분기 실기는 문제유형을 좋은 정보를 나눠주시는 친절한 분들이 많아서
시험때까지 얼마남지않은 초조한 시간에 정리해준 자료들을 보면서 도움을 많이 받았다
또 보게 될 수도 있으니까,,, 메모메모
실기도 사실상 암기와 비슷하다
전처리와 모델링 관련된 필수 라이브러리는 잘 정리해서 잘 외우는 게 중요하다 생각되었다
1. 통계 용어와 산술식에 대해서 문제에서 이해하고 적용해야 됨으로
한글용어랑 영어용어 구분없이 잘 정리해야한다.
ex) 표준편차 -> std(), 분산 -> var(), 중앙값 -> median() , 평균 -> mean(), IQR -> quantial()
2. 작업형에서 사용될 핵심 패키지들과 몇가지 내부 라이브러리들은 눈에 익숙해지도록 자주 보거나 암기해두는 게 좋다
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
|
#핵심 | pandas, numpy, sklearn
# 데이터프레임, 연산 지원
import pandas as pd
pd.DataFrame()
pd.to_csv()
["dd"].std()
# 수치계산
import numpy as np
# 전처리, 모델링 핵심 라이브러리 다수 포함
from sklearn import *
# 정규화 및 데이터 라이브러리
from sklearn.preprocessing import minmax_scale
# 데이터 분할 라이브러리
from sklearn.model_selection import train_test_split
# 데이터모델링&하이퍼파라미터튜닝
from sklearn.ensemble import RandomForestClassifier
# 데이터모델링 평가지표 라이브러리
from sklearn.metrics import f1-score
|
cs |
3. 하지만 암기는 외운대로만 적용하면 데이터 유형에 따라 변수가 발생할 수 있는 실기에서 문제가 발생함으로 시험장에서 패키지 도움닫기로 제공하는 help(), dir(), __all__ 3대장 사용방법을 꼭 곁들여서 연습하기! 오른쪽 버튼 누르고 메모장에 붙여서 헷갈리는 호다닥 찾는다면 마음이 싹 놓인다
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | # __all__ 패키지 안에 어떤 라이브러리들이 있는 지 알고싶다면 리스트타입으로 반환 import sklearn print(sklearn.__all__) # ["preprocessing", .........] # dir() 패키지 안에 어떤 라이브러리들이 있는 지 알고싶다면 리스트타입으로 반환 import sklearn.preprocessing print(dir(sklearn.preprocessing)) # ["LabelEncoder",.........] # help() 패키지의 특정 라이브러리의 메서드 사용방법을 확인하기 위한 파인더 from sklearn.preprocessing import LabelEncoder # help는 from 으로 검색이 안될때가 있어서 아래에 import를따로 해줘야함 import sklearn.preprocessing # dir(), __all__ 로 사용할 라이브러리를 정해두고 검색할때 유용함 print(help(sklearn.preprocessing.LabelEncoder)) | cs |
4. 모델링을 암기할때는 순서위주로 자연스럽게 메모메모 평소처럼 라이브러리를 맨 위에 쭈루루 import 하기 보다 각 단계에 맞춰서 패키지를 이해하려했다
1234567891011121314151617181920212223 # 0. 변수 정리 및 필요없는 변수 지우기train 셋의 타겟변수가 별도로 분리되어있는지 아닌지에 따라 살펴보고 예측데이터를 정의해야한다!# 1. 수치형과 범주형 데이터 파악하기# 2. 각각 정규화를 진행한다# 2.1 수치형 변수 스케일링from sklearn.preprocessing import StandardScaler# 2.2 범주형 데이터from sklearn.preprocessing import LabelEncoder# 3. 결측값을 확인하고 평균값 또는 중앙값으로 구한다# 5. 테스트데이터와 검증데이터로 구분하여 정리함from sklearn.model_selection import train_test_splitx_tr,x_val,y_tr,y_val = train_test_split(train,target,test_size=0.1,random_state=1204)# 6. 모델링은 ensemble 하이퍼파라미터로 튜닝을 진행한다.from sklearn.ensemble import RandomForestClassifierfrom xgboost# 7. 검증평가를 진행함 metricsfrom sklearn.metrics import roc_auc_score# 8. test 데이터 예측cs
<실기 문제유형 참고 사이트 정리>
Big Data Certification KR
python 과 R 두가지 코드 모두 적용할 수 있는 좋은사이트!
캐글데이터를 활용해서 핵심유형이랑 기초 문법 도서, 강의까지 한번에 정리되어있다 별 100만개
- 동영상 : 퇴근후딴짓 https://www.youtube.com/watch?v=8zVAmXuAHrs&ab_channel=%ED%87%B4%EA%B7%BC%ED%9B%84%EB%94%B4%EC%A7%93
- 사이트 : https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr
DataManim
실기에서 중요한 단답형과 작업형 둘다 테스트해볼 수 있다
작업형 문제는 주말에 스터디를 직접 운영해서 녹화본 강의까지 올려주시기도 하셨던듯!
단답형은 앱까지 개발해 주셧기에 시험보기전에 훅훅 정리할 수 있었어 별 100만개
작업형 2유형 말고도 모델링에 참고하면 좋을 튜닝방법
캐글예제
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터 분석기사 실기] 응시환경 체험 (0) | 2022.04.28 |
---|---|
[빅데이터분석기사 필기] 4과목 빅데이터 결과 해석 - 분석 결과 해석 및 활용(2) (1) | 2022.04.07 |
[빅데이터분석기사 필기] 3과목 빅데이터 모델링 - 분석 기법 적용(2) (0) | 2022.04.07 |
[빅데이터분석기사 필기] 3과목 빅데이터 모델링 - 분석 기법 적용(1) (2) | 2022.04.02 |
[빅데이터분석기사 필기] 3과목 빅데이터 모델링 - 분석모형 설계 (0) | 2022.03.29 |