Machine Learning & Deep Learning/파이썬 머신러닝 완벽 가이드(공룡책) 4

스태킹 앙상블

개별적인 여러 알고리즘을 서로 결합해 예측결과를 도출함 -> 배깅, 부스팅과 공통점 차이점 개별 알고리즘으로 예측한 데이터 기반으로 -> 다시 에측 수행 즉, 개별 알고리즘의 예측 결과 데이터 세트를 최종 메타 데이터 세트로 만듦 -> 별도의 ML 알고리즘으로 최종 학습 수행 -> 테스트 데이터 기반으로 다시 최종 예측 수행 필요한 모델 1. 개별적인 기반 모델(3개 이상) 2. 최종 메타 모델 : 개별 기반 모델의 예측 데이터를 학습 데이터로 만들어서 학습함 핵심은 여러 개별 모델의 예측 데이터를 각각 스태킹 형태로 결합 -> 최종 메타 모델의 학습용 피처 데이터 세트와 테스트용 피처 데이터 세트 만드는 것 스태킹은 현실에서 자주 사용 X BUT 캐글 같은 대회에서 성능 수치를 조금이라도 높여야 할 때..

불균형 데이터 처리, 언더 샘플링, 오버 샘플링

불균형 데이터 불균형 데이터는 정상 범주의 관측치 수와 이상 범주의 관측치 수가 현저히 차이나는 데이터 불균형한 분포를 가진 데이터 학습 시 성능 문제 발생 ex) 부도예측시 부도는 전체 기업의 3%내외로 극소수 암 발생 환자가 암에 걸리지 않은 사람보다 현저히 적음 신용카드 사기 거래는 정상거래보다 극소수 이상 레이블이 가지는 데이터 건수가 정상 레이블이 가진 데이터 수 너무 작아서 발생 이상 레이블은 매우 적어서 다양한 유형 학습 x 정상 레이블 데이터 수가 많아서 일방적으로 치우친 학습 수행 => 정확도가 높아도 실제 부실을 부실이라고 예측할 확률인 재현율이 급격히 작아짐 ex) 100개 데이터 중 3개가 부실 -> 모두 정상이라고 예측해도 정확도가 97% 나옴 즉, 불균형 데이터는 이상 데이터를 ..

결정트리

목차 결정트리, 특징, 시각화, 파라미터, 과적합 ML 알고리즘 중 직관적으로 이해하기 쉬운 알고리즘 데이터에 있는 규칙 학습을 통해 자동으로 찾아내 Tree 기반 분류 규칙 만들기 가장 쉬운 표현 : if/else 기반으로 나타냄 ex) 스무고개 게임과 유사 -> 어떤 기준 바탕의 규칙인지에 따라 효율적인 분류 가능 노드 : 트리를 구성하고 있는 각각의 요소 엣지 : 노드를 연결하고 있는 선 노드의 차수 : 엣지의 수 루트 노드 : 1번 노드 - 부모 노드가 없음 규칙 노드 : 3번 4번 5번 노드 - 규칙 조건이 있음 리프 노드 2번 노드 - 자식 노드가 없음 - 오직 하나의 클래스 값으로 최종 데이터 구성 - 결정된 클래스 값 - 하이퍼 파라미터 조건 충족 브랜치/서브 트리 : 새로운 규칙 조건마다..

p39 ~ 04 데이터 핸들링- 판다스

대부분의 데이터 세트는 2차원 데이터 = 행 x 열로 구성 ex) TABLE, 엑셀 시트 Why? 인간이 가장 이해하기 쉬운 데이터 구조, 효과적으로 데이터를 담는 구조 -> 판다스는 데이터를 효율적으로 가공/처리하는 기능 제공 판다스 - 넘파이 기반으로 작성 - 넘파이보다 유연하고 편리하게 데이터 핸들링 가능 - 고수준 API 제공 - 파이썬의 리스트, 컬렉션, 넘파이 내부 데이터 + CSV 같은 파일을 쉽게 DataFrame 으로 변경 - 핵심 객체 : DataFrame : 여러 개의 행과 열로 이뤄진 2차원 데이터를 담는 데이터 구조체 - Index, Series 객체 이해 필요 - Index : RDBMS의 PK처럼 개별 데이터를 고유하게 식별하는 Key 값 - Series vs DataFrame..