빅데이터 분석기사/작업 유형 1 (pd)

series의 통계값

유방울 2023. 4. 26. 22:08

소수점 둘째자리 표현

# 소수점 아래 2째자리까지 표시되도록 설정하기
pd.options.display.float_format = '{:,.2f}'.format

통계치 

# [1-45] subscriber, view, video에 대한 통계값을 알아봅니다. (describe 사용)
df.describe()

아는 내용 생략함

최빈값 : mode() -> 여러 개일 수 있기 때문에 series

한 값을 구하려면 인덱싱 사용

# [1-51] 'subscriber'의 최빈값을 구합니다. => Series
# 최빈값은 여러개일 수 있기 때문에 series임!!!
df['subscriber'].mode()

# 한 값만 구하기 위해서는 인덱싱할 수 있음음
df['subscriber'].mode()[0]

IQR

# [1-52] 'subscriber'의 Q1, Q2, Q3(25% 50%, 75%) 를 구합니다.
# IQR = Q3 - Q1
Q1, Q2, Q3 = df['subscriber'].quantile([0.25, 0.5, 0.75])
print(Q1, Q2, Q3, Q3-Q1)

그룹별 통계치 구하기

[['view']] -> 데이터프레임형식으로 나타남

# [1-53] category 별 평균을 구할 수 있는 모든 컬럼에 대한 평균을 구합니다.
df.groupby('category').mean()

# [1-54] category 별 view에 대한 평균을 구합니다.
df.groupby('category')[['view']].mean()

# [1-55] category 별 view, video에 대한 합계를 구합니다.
df.groupby('category')[['view', 'video']].sum()

'빅데이터 분석기사 > 작업 유형 1 (pd)' 카테고리의 다른 글

결측치 처리  (0) 2023.04.27
4/27 csv 파일 가져오기  (0) 2023.04.27
isin(), str accessor  (0) 2023.04.26
데이터 검색, boolean indexing  (0) 2023.04.26
데이터 정렬  (0) 2023.04.26