빅데이터 분석기사/작업 유형 2 (ML) 14

머신러닝 용어 이해

지도학습 - 입력, 출력 데이터가 제공되는 학습 - 이미 알려진 사례를 바탕으로 일반화된 모델 구축 - 종류 : Regression, Classification - 회귀(Regression) : 숫자화 된 데이터로 예측하는 것 (학습에서 주어진 것 이외의 작은 값, 사잇값, 큰 값이 있을 수 있음) - 분류(Classification) : 어떤 데이터에 대한 category를 예측하는 것 (학습에서 주어진 것 이외에 다른 category 없음) 비지도학습 - 입력은 주어지지만 출력은 제공되지 않음 - 기계가 알아서 학습하여 결과를 찾아내는 방법 - 종류 : Clustering, Demension Reduction, Association(연관) - 군집화(Clustering) – 비슷한 특징을 가진 아이템..

Mini Project - 회귀식, 상관계수, 절편확인 객체 파일로 저장

model.coef_ : 기울기 model.intercept_ : 절편 # [1] 상관계수 확인하기 # Y1 = a1*X['아빠'] + a2*X['엄마'] + b # b를 찾아야 함 # coef_ 기울기 # intercept_ 절편 print(model.coef_) print(model.intercept_) [0.29874268 0.77216009] -3.83539716959595 Yh = 0.77216009 * 176 + 0.29874268 * 160 + -3.83539716959595 print(Yh) 179.86360747040405 모델 저장하기 모델 불러오기 # [2] 모델 저장하기 import shelve with shelve.open('height') as data: data['model_s..

Machine Learning 사전 학습 2 데이터 분할, 학습, 아들키 예측

자녀의 키 예측 부모의 키를 사용해 자녀의 키 예측하는 회귀 모델 작성 아들키 예측 # 이건 작성 안 해도 됨 # 나중에 줄 것임 import pandas as pd data_train = {'아빠' : [175, 180, 172, 174, 178, 168, 173, 177], '엄마' : [160, 158, 155, 161, 163, 160, 168, 167], '아들' : [178, 182, 175, 180, 183, 174, 179, 183], '딸' : [163, 168, 157, 164, 167, 158, 169, 169]} df = pd.DataFrame(data_train) # 인덱스는 id df.index.name = 'id' # 입력값 df[['아빠', '엄마']].to_csv('X_tr..

Machine Learning 사전 학습 1 전처리, 탐색, 타입 확인, 인코딩

2유형 과정 주의사항 객체 출력 안 됨 -> print()사용 ! 코랩환경 아님 -> 코드를 길게 쭉 입력해야 함 ! 전처리 파트 문제지 요구사항ㅇㅔ 제시된 칼럼의 타입이 파일에서 읽어온 데이터와 동일한가? 숫자가 아닌 문자 포함 -> object로 표기되며 해당 문자를 찾아서 없애기 1. astype('int') or float로 변환 시도 -> 오류시 2. series.replace(regex=True) or Series.str.replace()사용 3. 다시 astype() 변환 날짜/시간 1. pd.to_datetime(Series, forma='%Y%m%d') 사용 1.1 일반적으로 astype('datetime64')로 가능 # 새로운 칼럼으로 추가하는 것이 좋음 # 원본으로 돌리지 않아도 됨..