빅데이터 분석기사/작업 유형 1 (pd)
4/27 csv 파일 가져오기
유방울
2023. 4. 27. 12:41
3.알코올을 가장 많이 마시는 나라는?
country : 국가명
beer_servings : 맥주 소비량
spirit_servings : 증류주 소비량(독주, 알코올 함량 20% 이상의 설탕을 첨가하지 않은 증류주)
wine_servings : 와인 소비량
total_litres_of_pure_alcohol : 순수 알코올
continent : 대륙
# [2-0] 사용라이브러리 import
import pandas as pd
# [2-1] drinks.csv 파일을 DataFrame으로 불러오기 합니다.
# ./ : 현재 시점에 있는는
df = pd.read_csv('data_01/drinks.csv')
# [2-2] df의 데이터 모습을 확인하기 위해 첫 5개 데이터를 출력합니다
df.head()
# [2-3] df의 컬럼명을 한글로 변경합니다.
# ['국가', '맥주', '증류주', '와인', '알코올','대륙']
df.columns = ['국가', '맥주', '증류주', '와인', '알코올','대륙']
# 변경되었는지 확인합니다.
df.head()
# [2-4] df의 row의 개수 및 각 column의 정보 및 메모리 사용량을 확인합니다.
df.info(memory_usage='deep')
# '대륙'에 대한 정보가 부족한 것을 확인할 수 있습니다.
# 이유가 무엇일까요? 어떻게 해결할 수 있을까요?
대륙의 종류
-> 아시아, 유럽, 아프리카, 북아메리카, 남아메리카, 오세아니아
AS, EU, AF, NA, SA, OC
NA를 결측치라고 판단