빅데이터 분석기사/작업 유형 1 (pd)
통계치 구하기
유방울
2023. 4. 27. 13:16
통계치 한 번에 확인
수치형 자료에 유용함
# [2-13] describe 함수를 사용해 전세계 맥주, 증류주, 와인, 알코올 소비에 대한 통계치를 구해봅니다.
# 수치자료 정보만 가능
df.describe()
범주형 자료도 가능함
그닥 유용한 것은 아니지만 수치로 가능한 표현이 표현됨
# 범주형 자료가 가능한 수치로만 표현현
temp = df[['국가', '대륙']]
temp.describe()
문자열 정렬
숫자 < 영문 대문자 < 영문 소문자
min 사용 -> 대문자 A시작인 AF
max 사용 -> 대문자 S시작인 SA
ord('0'), ord('1'), ord('A'), ord('B'), ord('a'), ord('b')
(48, 49, 65, 66, 97, 98)
# [2-20] df (object dtype이 존재함) 에 대해서 컬럼별 min을 구해 봅니다.
# dtype이 object이 컬럼의 min은 오름차순 정렬시 가장 앞에 있는 것
# dtype이 object이 컬럼의 max는 오름차순 정렬시 가장 뒤에 있는 것
# 문자열 정렬시에는 문자의 코드값을 사용함 : ord(문자)
df.min()
국가 Afghanistan
맥주 0
증류주 0
와인 0
알코올 0.0
대륙 AF
dtype: object
df.max()
국가 Zimbabwe
맥주 376
증류주 438
와인 370
알코올 14.4
대륙 SA
dtype: object
각 컬럼 별 함수 적용
way 1
1개 사용 -> df.apply
2개 이상 사용 -> df.apply([]) 리스트 사용
# [2-21] df2의 각 컬럼별 평균을 구해 봅니다
df2.apply('mean')
# [2-22] df2의 최소, 최대, 평균값을 구해봅니다.
df2.apply(['min', 'max', 'mean'])
way 2
df2.mean()