빅데이터 분석기사/작업 유형 1 (pd)

5/4 컬럼, 행의 추가/삭제

유방울 2023. 5. 4. 03:17

공부 쫌 하자.. 제발ㅜ

ㅋㅋㅋㅋ

ㅜㅜ!!!

쫌!! 

 

산술연산 () 생략 가능

# [2-23] 와인 소비량이 맥주 + 증류주 소비량보다 큰 나라를 검색해,'대륙'을 기준으로 정렬해 보자
df[df['와인'] > df['맥주']+ df['증류주']].sort_values('대륙')

관계연산 () 필

# [2-24] 맥주 소비량이 230 초과이면서, 와인 소비량이 230 초과인 나라를 검색해 보자
# 관계연산 &, |은 () 필수
df[(df['맥주'] > 230) & (df['와인'] > 230)]

새로운 칼럼 추가

주류소비량

way 1

# [2-26] 국가별 주류 소비량 합계를 구해 새로운 컬럼 ('주류소비량')를 추가합니다
# 주류소비량 = '맥주' + '증류주' + '와인'
df['주류소비량'] = df['맥주'] + df['증류주']  + df['와인']

 way 1

# [2-27] 주류소비량2 = ['맥주', '증류주', '와인']에 대해 DataFrame.sum(axis=1) 함수 사용
# axis = 1 컬럼별로 연산을 함  -> 행별로 합계 구함
df['주류소비량2'] = df[['맥주', '증류주', '와인']].sum(axis=1)

알코올비율 추가

# [2-28] 주류 소비량 대비 알코올 소비량 비율을 구해 새로운 컬럼 ('알코올비율')을 추가합니다.
# 알코올비율 = '알코올' / '주류소비량'
df['알코올비율'] = df['알코올'] / df['주류소비량']

인덱싱, 정렬 복습

# [2-29] 알코올비율이 높은 국가 TOP5의 ['국가', '주류소비량', '알코올비율'] 정보를 구해 봅니다.
# HINT) sort_values, indexing 사용
df[['국가', '주류소비량', '알코올비율']].sort_values('알코올비율', ascending = False).head()

칼럼 제거 방법 1~3

앞에 df = 를 꼭 넣어야 바뀐 내용 확인 가능

# way 1 
df = df.drop('주류소비량2', axis=1)

# way 2
df = df.drop(columns=['주류소비량2'])

# way 3 
# del은 인덱싱을 사용해서 어떤 것을 제거할 것인지 알려줘야 함
del df['주류소비량2']

fillna()도 df['알코올비율'] =  로 답을 덮어 씌어야 함

# [2-31] '알코올비율'이 NaN인 것에 대해 0으로 채우기 합니다.
df['알코올비율'] = df['알코올비율'].fillna(0)

'빅데이터 분석기사 > 작업 유형 1 (pd)' 카테고리의 다른 글

맥주 소비량 분석  (1) 2023.05.12
다양한 데이터 프레임 구조 조작 5/11  (0) 2023.05.04
통계치 구하기  (0) 2023.04.27
결측치 처리  (0) 2023.04.27
4/27 csv 파일 가져오기  (0) 2023.04.27