빅데이터 분석기사

2유형 주의사항, 평가지표

유방울 2023. 6. 11. 23:17

2유형

dtype : ML은 object 돌아가지 않음

결측치 처리는 간단하게만 하자 평균대체^^

type 확인

날짜/시간 -> datetime으로 바꾸기 -> year, month, day, hour, weekday -> year가 같으면 삭제하기 

 

시간제한(1분) 꼭 꼭 꼭 확인하기

- 걍 하지 말자^^, 개수 디폴트여도 무난함 <<SVM, Ensemble(estimators 개수 크게)>>

- 최적의 파라미터 찾기위해 GridSearchCV

- 이거 절대 절대 절대로 남겨두면 안됨 무조건 1분 넘으니까 주석하기

 

너무 많은 시간을 쓰지 말고 기본만 해두고 절반 점수만 받자

 

평가 (2항분류, 다항분류, 회귀)

 - r2_score(y_true, y_pred)

 

분류

- precision, f1, recall

다항 2항(multi_class='ovo'/ovr) - 전체 확률값

- roc_auc_score(y_true, y_proba) : 2항(1개 확률값), 다항(전체 확률값)

 

회귀

msle(rmsle) -> 예측값에 음수가 있으면 안됨!

평가 보정 가능 : 예측값이 음수가 나올 수 없는 값

ex) 판매량 예측

음수가 있는지 확인 -> 0 혹은 절대값으로 보정함

바꿔도 모름^^

 

- 볼펜 꼭 챙기기!!!!

 

1. 범주 불일치

X를 합쳐서 전처리

합쳐서 안 하면 범주가 다르게 인식될 수 있음