파이썬
-
[Python]_시각화_Matplotlib_hist, pie 그래프 그리기공부/Python 2021. 6. 25. 21:26
1. hist 히스토그램은 구간별 빈도수를 나타내는 그래프로, x축은 구간(bins), y축은 빈도로 나타낸다. 기본 형태는 plt.hist(x, bins=) 이다. 기본 예제로 10000개의 숫자에 대해서 구간을 30개로 나눠 히스토그램을 그려보자. 1-2. y축 변경_퍼센트로 나타내기 hist 옵션에서 density=True로 하면 y축이 퍼센트 비율로 바뀌게 된다. 1-3. y축 변경_누적 막대그래프로 나타내기 hist옵션에서 cumulative=True를 설정하면 누적막대그래프로 나타낼 수 있다. 2. pie 점유율을 나타낼사 사용하는 그래프로 4-5개의 데이터에 대해 나타날 때 적당하다. 기본 형태는 아래와 같다. 몇 가지 옵션에 대해 알아보고 이를 활용한 그래프를 그려본다. * explode:..
-
[Python]_시각화_Matplotlib_Barplot, Barhplot공부/Python 2021. 6. 9. 22:33
1. Barplot_막대그래프 기본적인 코드는 plt.bar(x, y)으로 x와 y값이 필요하다. x에는 '과목' , y는 과목에 대한 '점수'라는 데이터를 통해 과목별 점수 Bar그래프를 그려보자. 여기에 스타일 옵션을 주어 그래프를 보기좋게 만들어보자. align, alpha, color 2. barh_수평 막대그래프 수평 바 그래프로 bar plot을 수평으로 바꾸어 본다고 생각하면 된다. x축에 들어갈 내용이 길어 겹쳐 보일 때 수평 바 그래프로 보면 된다 기본 내용은 bar와 같고 오직 다른 점은 plt.yticks()에 x값을 넣어주면 된다. 3. bar로 비교 그래프 그리기 철수, 영희의 과목별 점수를 한 그래프에서 비교해본다고 하자 일단 철수, 영희 각각 두 개의 데이터가 필요하고, 막대 ..
-
[Python]_시각화_Matplotlib_Scatter_s,c,cmap,alpha옵션 적용공부/Python 2021. 6. 8. 22:04
1. Scatter(산점도) 산점도는 두 변수의 관계를 나타내는 것으로 이를 통해 양의 상관관계, 음의 상관관계, 관계없음을 알 수 있다. 아래 사이트에 들어가 보면 Scatter에 기본적인 내용과 예제에 대해서 볼 수 있다. https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.scatter.html?highlight=scatter#matplotlib.pyplot.scatter matplotlib.pyplot.scatter — Matplotlib 3.4.2 documentation Parameters: x, yfloat or array-like, shape (n, )The data positions. sfloat or array-like, shape..
-
[Python]_numpy_배열만들기, indexing, slicing공부/Python 2021. 6. 3. 22:27
1. 다차원 배열 만들기 np.array shape #1차원 배열 만들기 넘파이_배열1=np.array([1,2,3,4]) #2차원 배열 만들기 넘파이_배열2 = np.array([[1,2,3,4],[11,12,13,14]]) #3차원 배열 생성하기 넘파이_배열3 = np.array([ [[1,2,3,4],[11,12,13,14]], [[21,22,23,24],[31,32,33,34]] ]) 넘파이_배열3.shape #모양 알아보기 # 3차원 데이터는 (묶음, 행, 열)로 이해하면 될 것 같다 . 2. 0 or 1 or 랜덤숫자로 채운 배열 만들기 np.zeros np.ones np.random() zero=np.zeros([4]) one=np.ones([3,4]) random=np.random.rand..
-
[Python]_06_pandas_부동산 데이터를 활용한 예제, str.strip(), ,str.replact(),fillna, index를 활용한 drop공부/Python 2021. 6. 3. 14:51
ValueError: invalid literal for int() with base 10: ' ' 1칸 or 2칸 공백이 있음을 의미한다. df['분양가격'] = df['분양가격'].str.strip() # 공백을 제거해준다 ValueError: invalid literal for int() with base 10: '' 공백을 의미한다. df.loc[ df['분양가격'] == '', '분양가격'] = 0 # loc를 이용해 공백에 0을 넣어준다. ValueError: cannot convert float NaN to integer 값이 없음을 의미한다. df['분양가격']=df['분양가격'].fillna(0) # Nan값에 0을 넣어준다. ValueError: invalid literal for in..
-
[Python]_pandas_04_fillna,inplace,dropna,drop,drop_duplicates공부/Python 2021. 5. 31. 21:53
1. df.fillna(넣을 값) 해당 값 저장 방법 2가지 1-1. inplace= True 사용 df.fillna(넣을 값, inplace= True) inplace= True는 이 값을 저장한다는 의미. inplace=True 없으면 해당 값이 저장이 안 됨 1-2. 변수에 넣어주는 방법 df['컬럼명']=df['컬럼명'].fillna(넣을 값) 2. Dorp 2-1.NaN값에 대해 행전체 제거 df.dropna(axis =0 or 1,how='any'or'all') axis = 0: 행, =1: 열 any:행에 하나라도 NaN값이 있다면 행 전체 제거 all:모든 행이 NaN이면 행 전체 제거 2. NaN의 중복된 값을 제거 df.drop_duplicates(keep='last' or 'first..
-
[Python]_03_pandas_copy, append, max, min, count,..., gruop by, pivot, multi-index, unstack, rest_index()공부/Python 2021. 5. 28. 13:09
3# colab 사용 #강의 10 11 12 13 14 15 1. copy : 원본 데이터 유지시키고, 새로운 변수에 복사할 때 사용. - df.copy() new_df=df.copy() 2. row, column추가 - row 추가 : df.append({ '키' : '값' }, ingnore_index=True) - columns 추가 : df['국적']='대한민국' # row 추가- df.append({},ignore_index=True) # ignore_index=True을 해야 오류 안남 df=df.append({'이름':'테디','그룹':'테디그룹},ignore_index=True) # column 추가- df.['넣을 컬럼명']='넣을 값(문자)' or 넣을 값(숫자) # 문제: 이름이 지드..
-
[Python]_02_pandas_컬럼선택,loc,iloc,isin,isna,isnull,notnull,공부/Python 2021. 5. 27. 17:46
_※ colab을 사용 ※ 파일 업로드 방식은 여러 가지가 있지만 구글 드라이브를 사용함. ※ 아직 왕 초보라 틀린 부분이 있을 수도 있습니다. 혹시 발견하신다면 댓글로 알려주세요. ※ 복습용으로 간략하게 써놓은 부분입니다. 혹시 좀 더 자세히 알고 싶으신 부분이 있다면 댓글 남겨주세요. 알고 있는 내용 한에서 알려드리겠습니다.!!! # 강의 6,7,8,9 1. 컬럼 선택 방법 # 이름 컬럼에 대해 모든 행 뽑아라 (3가지 방법) df['이름'] df["이름"] df.이름 # 추천하지 않음. 2. loc / iloc - loc : 컬럼을 문자로 표현 가능 - iloc : 숫자로만 표현 가능 ### loc 이용 # 모든 데이터 뽑아라 df.loc[:] # 이름, 키 컬럼에 대한 모든 행데이터 뽑아라 df...