빅데이터 분석기사/작업 유형 1 문제 풀이

상위 5퍼 = quantile(0.95), 시간에 따라 증가시 마지막(max) 선택, 상관계수는 절댓값 사용, 멀티인덱싱

유방울 2023. 6. 21. 02:47

Minmax

quantile 헷갈릴 수도 있으나!! 가로막대그래프를 그렸을 때 오른쪽으로 갈수록 숫자가 커짐

-> 상위 5퍼는 0.95를 의미함

정규화
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaled = scaler.fit_transform(df[['f5']])
top, down = scaled.quantile([0.95,0.5])
print(int(top, down))

시간이 지남에 따라 점점 접종률이 증가함

groupby 썼으면 해당하는 통계함수 뭐 쓸건지 고민해야 함!

시간이 지남(오래됨, 숫자 증가함) -> 가장 마지막이 country의 백신률을 알 수 있음

df2 = df.groupby(country).max()['ratio'].sort_values(ascending=False)
df3 = df2[1:]
top = df3.head(10).mean()
down = df3.tail(10).mean()
print(round(top-down,1))

상관계수가 크다 작다 -> 무조건 절댓값을 씌웠을 때 기준임!!

corr = df.corr()
quality = corr['quality']
quality2 = quality[:-1]
max = abs(quality2).max()
min = abs(quality2).min()
print(round(max+min,2))

groupby한 후 인덱스 표시하고 싶을 때 멀티인덱싱 사용하기

reset_index() 먼저 해버리기

mean = df.groupby(['city','f4'])[['f5']].mean()
mean2 = mean.reset_index()
print(round(mean2['f5'].sort_values(ascending=False).head(7).sum(),2))