빅데이터 분석기사/작업 유형 1 (pd)
데이터 형식 변경 2/2
유방울
2023. 4. 26. 14:52
4개 예시
temp = pd.DataFrame({'날짜_일반': ['2021/01/01', '2021/01/02', '2021/01/03', '2021/01/04', '2021/01/05'],
'날짜_시간': ['2021-01-01 1:12:10', '2021-01-02 1:13:45', '2021-01-03 2:50:10', '2021-01-04 3:12:30', '2021-01-05 5:40:20'],
'날짜_특수': ['21-01-01', '21-01-02', '21-01-03', '21-01-04', '21-01-05'],
'범주': ['금', '토', '일', '월', '화']})
날짜_일반, 날짜_시간은 astype(np.datetime64) 형식으로 변경
날짜_특수는 위 함수 적용시 제대로 인식 못함 -> 형식 사용
# datetime 형식 변경
temp['날짜_일반'].astype(np.datetime64)
# 형식지정
pd.to_datetime(temp['날짜_특수'], format= '%y-%m-%d')
그냥 범주 -> 가나다 순으로 범주가 됨
새롭게 범주를 만들어서 범주 형식으로 변경
# sort_index() index를 정렬하는 것
# 가나다 순서대로 정렬됨
s5.sort_values()
['금', '월', '일', '토', '화']
# pd.Categorical(Series, categories=카테고리목록, ordered=True)를 사용해 요일 순 범주를 만들어 보자
# 요일목록 => ['월', '화', '수', '목', '금', '토', '일']
s6 = pd.Categorical(temp['범주'], categories = ['월', '화', '수', '목', '금', '토', '일'], ordered = True)
temp['범주'] = s6
temp['범주']