유방울 2023. 4. 27. 13:16

통계치 한 번에 확인

수치형 자료에 유용함

# [2-13] describe 함수를 사용해 전세계 맥주, 증류주, 와인, 알코올 소비에 대한 통계치를 구해봅니다.
# 수치자료 정보만 가능
df.describe()

범주형 자료도 가능함 

그닥 유용한 것은 아니지만 수치로 가능한 표현이 표현됨

# 범주형 자료가 가능한 수치로만 표현현
temp = df[['국가', '대륙']]
temp.describe()

문자열 정렬

숫자 < 영문 대문자 < 영문 소문자

min 사용 -> 대문자 A시작인 AF

max 사용 -> 대문자 S시작인 SA

ord('0'), ord('1'), ord('A'), ord('B'), ord('a'), ord('b') 
(48, 49, 65, 66, 97, 98)

# [2-20] df (object dtype이 존재함) 에 대해서 컬럼별 min을 구해 봅니다.
# dtype이 object이 컬럼의 min은 오름차순 정렬시 가장 앞에 있는 것
# dtype이 object이 컬럼의 max는 오름차순 정렬시 가장 뒤에 있는 것
# 문자열 정렬시에는 문자의 코드값을 사용함 : ord(문자)

df.min()
국가     Afghanistan
맥주               0
증류주              0
와인               0
알코올            0.0
대륙              AF
dtype: object

df.max()
국가     Zimbabwe
맥주          376
증류주         438
와인          370
알코올        14.4
대륙           SA
dtype: object

각 컬럼 별 함수 적용

way 1

1개 사용 -> df.apply

2개 이상 사용 -> df.apply([]) 리스트 사용

# [2-21] df2의 각 컬럼별 평균을 구해 봅니다
df2.apply('mean')

# [2-22] df2의 최소, 최대, 평균값을 구해봅니다.
df2.apply(['min', 'max', 'mean'])

way 2

df2.mean()