파이썬. str.contains 의 결과를 반전시키기. df['choice_description'].str.contains('Vegetables',case=False) #1. ~ 연산 사용 ~df['choice_description'].str.contains('Vegetables',case=False) #2. == False 로 == 연산을 이용 df['choice_description'].str.contains('Vegetables',case=False) == False 개발/파이썬 2022.11.29
파이썬. CSV 파일을 읽어올 때 쉼표(,) 제거 csv 파일을 읽어올때 우리가 볼때는 int , float 이나 막상 출력해보면 object 형식인 경우가 많다 자료의 쉼표가 있는 경우가 그 대표적인데 이를 제거하기위해서는 데이터를 읽어올때 thousands=',' 을 이용한다. 위 자료의 형은 object 이다 thousands=',' 를 추가해서 불러오면 , 가 제거된 상태로 가져온 것을 알 수 있다. 개발/파이썬 2022.11.29
파이썬. 밀도를 나타내는 Heat Maps 관계 를 나타낼때 앞선 방식들은 밀도 표시가 어렵습니다. 이를 위해 heat maps 를 사용해봅시다. df는 다음과 같습니다. plt.hist2d(data = df , x = 'displ' , y = 'comb',cmin=0.5,cmap = 'viridis_r', bins = 20) #cmin 0.5 값은 값이 없는 데이터는 칠하지마라. #cmap = viridis_r 은 색을 반대로 칠한다. plt.colorbar() plt.title('배기량과 연비관계') plt.xlabel('Displacement (L)') plt.ylabel('연비 (mpg)') plt.savefig('차트1.png') plt.show() 개발/파이썬 2022.11.28
파이썬. Matplotlib - 상관관계 ( scatter , regplot , pairplot) 이번에는 두 컬럼간의 상관관계 (비례,반비례,관계없음)을 알아보겠습니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline 위 라이브러리를 모두 import 해주세요. df에는 다음과 같은 데이터가 들어있습니다. 먼저 코드는 다음과 같습니다. #배기량과 co2의 상관관계 plt.scatter(data = df , x = 'displ', y ='comb') plt.title('Displ vs Comb') plt.xlabel('Displacement (L)') plt.ylabel('Combined Fuel Eff (mpg)') plt.show() 이 그래프가 반.. 개발/파이썬 2022.11.28
파이썬. Matplotlib - Histogram 구간을 설정하고 그 구간에 포함되는 데이터가 몇개인지를 나타내는 차트를 히스토그램이라고 한다. 이전포스팅과 마찬가지로 df 는 위와 같은 데이터를 가지고 있다. 히스토그램을 만들어보자. plt.hist(data = df, x = 'speed' , rwidth = 0.8 , bins = 30) # speed 컬럼으로 만든다. rwidth 는 각 데이터들 사이에 공간 # bins 는 데이터의 갯수를 의미하며 30은 30개로 표현하겠다는 뜻이다. plt.show() bins= 의 어떤 값을 넣냐에 따라 달라지게 된다. my_bins = np.arange(5,160+3,3) #bin의 범위 지정 5~160 을 데이터값 3을 기준으로 나누어라. plt.hist(data = df, x = 'speed' , rwid.. 개발/파이썬 2022.11.28
파이썬. Matplotlib - 한글처리방법 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline import platform from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False if platform.system() == 'Darwin': rc('font', family='AppleGothic') elif platform.system() == 'Windows': path = "c:/Windows/Fonts/malgun.ttf" font_name = font_manager.FontProperties(fname=p.. 개발/파이썬 2022.11.28
파이썬. Mabplotlib - Pie Charts 이번에는 둥그런 모양의 차트로 만들어 봅시다 앞선 포스팅과 마찬가지로 df 에는 다음과 같은 데이터 값이 들어있습니다. 먼저 파이차트는 데이터프레임 자체로는 바로 구할 수가 없기 때문에 먼저 나타낼 데이터값들을 구해놓아야 합니다. (Pandas Series) df2 = df['generation_id'].value_counts() # df 로는 바로 구할 수 없어 만든 df2 = df의 generation_id 컬럼 값 plt.pie(df2,labels= df2.index, autopct='%.1f', startangle=90, wedgeprops= {'width' : 0.7} ) # labels= 은 각 데이터별 인덱스값, autopct= 데이터를 &표시 , startangle= 데이터의 시작위치 # .. 개발/파이썬 2022.11.28
파이썬. Matplotlib - Bar Chart Matplotlib 을 이용한 차트를 만들어봅시다. import matplotlib.pyplot as plt import numpy as np x 축에는 0~ 9 까지의 수 , y 축도 x와 마찬가지로 0~9 까지의 값으로 y=x 그래프를 만들어 봅시다. x = np.arange(0,9+1) y = x plt.plot(x,y) # plot 함수 plt.savefig('test1.jpg') # 이미지로 저장 plt.show() # 출력 이번에는 Bar 형식의 차트를 만들어 봅시다. import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline df = pd.read_csv.. 개발/파이썬 2022.11.28
파이썬. DataFrame 합치기 예전에 DataFrame 에 행을 추가하는 함수로 append를 사용했는데 파이썬에서는 concat을 이용하라고 했었습니다. 컬럼의 이름이 같으면, pd.concat( [DataFrame1, DataFrame2, ····] ) 이런식으로 추가가 가능합니다. 이번에는 컬럼의 일부분이 같은 데이터프레임들을 합쳐봅시다. 위 두가지는 컬럼이 같은 데이터프레임이라 concat으로 합치는게 가능합니다. 위 데이터프레임은 앞선 것들과 Employee ID라는 컬럼만 같을 뿐 다른 데이터프레임 입니다 하나로 합쳐서 새로운 컬럼이 추가된 데이터 프레임을 만들어 봅시다. 이때는 merge라는 함수를 이용합니다. pd.merge('데이터프레임1','데이터프레임2', on = '공통된컬럼' , how= '') pd.merge.. 개발/파이썬 2022.11.25
파이썬. DataFrame 정렬하기. 위 데이터를 가진 df가 있습니다. 경력을 오름차순으로 하려고 합니다. 데이터값으로 정렬하기 때문에 sort_values 라는 함수를 사용합니다. df.sort_values('Years of Experience', ascending=True) 파라미터로는 먼저 정렬할 데이터의 컬럼명을 써주시고 , ascending = True는 오름차순입니다. False 는 내림차순입니다. 이번에는 이름과 경력으로 정렬해보겠습니다. df.sort_values(['Employee Name','Years of Experience']) 이번에는 이름은 오름차순으로 경력은 내림차순으로 정렬해보겠습니다. df.sort_values(['Employee Name','Years of Experience'],ascending=[True.. 개발/파이썬 2022.11.25