소수점 둘째자리 표현
# 소수점 아래 2째자리까지 표시되도록 설정하기
pd.options.display.float_format = '{:,.2f}'.format
통계치
# [1-45] subscriber, view, video에 대한 통계값을 알아봅니다. (describe 사용)
df.describe()
아는 내용 생략함
최빈값 : mode() -> 여러 개일 수 있기 때문에 series
한 값을 구하려면 인덱싱 사용
# [1-51] 'subscriber'의 최빈값을 구합니다. => Series
# 최빈값은 여러개일 수 있기 때문에 series임!!!
df['subscriber'].mode()
# 한 값만 구하기 위해서는 인덱싱할 수 있음음
df['subscriber'].mode()[0]
IQR
# [1-52] 'subscriber'의 Q1, Q2, Q3(25% 50%, 75%) 를 구합니다.
# IQR = Q3 - Q1
Q1, Q2, Q3 = df['subscriber'].quantile([0.25, 0.5, 0.75])
print(Q1, Q2, Q3, Q3-Q1)
그룹별 통계치 구하기
[['view']] -> 데이터프레임형식으로 나타남
# [1-53] category 별 평균을 구할 수 있는 모든 컬럼에 대한 평균을 구합니다.
df.groupby('category').mean()
# [1-54] category 별 view에 대한 평균을 구합니다.
df.groupby('category')[['view']].mean()
# [1-55] category 별 view, video에 대한 합계를 구합니다.
df.groupby('category')[['view', 'video']].sum()
'빅데이터 분석기사 > 작업 유형 1 (pd)' 카테고리의 다른 글
결측치 처리 (0) | 2023.04.27 |
---|---|
4/27 csv 파일 가져오기 (0) | 2023.04.27 |
isin(), str accessor (0) | 2023.04.26 |
데이터 검색, boolean indexing (0) | 2023.04.26 |
데이터 정렬 (0) | 2023.04.26 |