-
[Python]_03_pandas_copy, append, max, min, count,..., gruop by, pivot, multi-index, unstack, rest_index()공부/Python 2021. 5. 28. 13:09반응형
3# colab 사용
#강의 10 11 12 13 14 15
1. copy : 원본 데이터 유지시키고, 새로운 변수에 복사할 때 사용.
- df.copy()
new_df=df.copy()2. row, column추가
- row 추가 : df.append({ '키' : '값' }, ingnore_index=True)
- columns 추가 : df['국적']='대한민국'
# row 추가- df.append({},ignore_index=True) # ignore_index=True을 해야 오류 안남 df=df.append({'이름':'테디','그룹':'테디그룹},ignore_index=True) # column 추가- df.['넣을 컬럼명']='넣을 값(문자)' or 넣을 값(숫자) # 문제: 이름이 지드래곤인 행의 국적을 korea로 변경해라 df.loc[df['이름']=='지드래곤','국적'] = 'korea'3. 통계 값
- df.min()
- df.max()
- df.sum()
- df.mean() 평균
분산과 표준편차는 평균으로부터 얼마나 떨어져 있는지 정도를 나타냄
- df.var() 분산 (데이터-평균)**2 모두 합한 값/n
- df.std() 표준 편차 분산의 루트
- df.count() 개수
- df.median() 중앙값
4. 피벗 테이블
- 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용
- pd.pivot_tavle( 데이터셋, index='컬럼명', columns='컬럼명', values='컬럼명')
pd.pivot_table(df, index='소속사', columns='혈액형', values='키')
# agggunc에는 추가 계산옵션(np.sum,np.mean 등등) # nupmy 필요함 import numpy as np pd.pivot_table(df, index='그룹', columns='혈액형',values='키', aggfunc=np.sum)
5. groupby
- df.groupy('컬럼명').mean()/max()/sum() 등등
# 문제 : 소속사 별로 평균값을 나타내어라 df.groupby('소속사').mean()
# 문제 소속사별로 평균값을 키에대해서만 나태내라 즉 특정 열만 출력하고 싶을때 df.groupby('혈액형')['키'].mean()
6. multi-index, unstack, reset_index()
- 행 인덱스를 복합적으로 구성하고 싶을 때
df.groupby(['혈액형','성별']).mean()
- multi-index로 된 데이터 프레임을 피벗테이블 형태로 다시 변환해줄 때
df2=df.groupby(['혈액형','성별']).mean() df2.unstack('혈액형')
df2.unstack('성별')
- resest_index() : multi-index로 구성된 프레임의 인덱스를
df2=df2.reset_index()
반응형'공부 > Python' 카테고리의 다른 글