way 1 파일 4개 합치기
# way 1
# [3-5] df2016, df2017, df2018, df2019를 합쳐 한 개의 DataFrame으로 만들어 df라는 이름을 지정합니다.
dfList = [df2016, df2017, df2018, df2019]
df = pd.concat(dfList,axis=0)
# df의 shape을 출력하여 전체 행, 열의 수를 확인합니다.
df.shape
way 2 glob 묘듈의 glob 함수
# way 2
# 날짜가 쪼개져 있을 때도 있ㅇㅡㅁ
# 글로브 모듈의 글로브 함수 사용
import glob
glob.glob('data_01/data_day_*.xlsx')
정렬을 원하면 sorted()
#[TIP] 만일 파일이름을 정렬하고 싶다면 sorted() 함수를 사용합니다.
# (-.- 강의에서는 언급을 몬했어요 ㅎ)
sorted(glob.glob('data_01/data_day_*.xlsx'))
way 3 파일의 개수가 많다면? for문과 glob
# 코드를 줄일 수 있음
# 데이터도 4개가 아님 100개도 가능
import glob
dfList = []
for x in glob.glob('data_01/data_day_*.xlsx'):
temp = pd.read_excel(x)
dfList.append(temp)
df = pd.concat(dfList, axis = 0)
df.shape
'빅데이터 분석기사 > 작업 유형 1 (pd)' 카테고리의 다른 글
날짜타입으로 변경하기 (1) | 2023.05.12 |
---|---|
index 번호 정리하기 (0) | 2023.05.12 |
그룹별 통계값 구하기 (0) | 2023.05.12 |
맥주 소비량 분석 (1) | 2023.05.12 |
다양한 데이터 프레임 구조 조작 5/11 (0) | 2023.05.04 |