본문 바로가기

Data Science9

판다스 자주쓰는 명령어4 # 특정 조건 만족하는 데이터 마스킹 import numpy as np df.mask(df["Salary"] = 5000] # & | 써서 조건 결합 df.loc[ (df["Salary"] >= 5000) & (df["Salary"] < 7000) ] # 인덱스 기준 정렬 df.sort_index() # 인덱스 기준 정렬(내림차순) df.sort_index(ascending=False) # 컬럼 기준 정렬 df.sort_value.. 2022. 10. 14.
판다스 자주쓰는 명령어3 - 결측값 대체 df.dtypes # 각 컬럼별 타입 확인하기 df = df.astype({"Age" : "int8", "Salary" : "float32", "WeeklyDrink" : "float32" , "Weekly Exercise" : "float32"}) df.dtypes # 기본적인 통계지표 확인하기 df.describe() df.loc[:, "Age", "Salary", "WeeklyDrink", "WeeklyExercise"]].corr() # NaN 제거 df = df.dropna() # NaN 값이 포함되어있는 데이터 모두 제거 len(df) # 개수 확인 # NaN 채우기 df["WeeklyDrink"] = df["WeeklyDrink"].fillna(0) # 0으로 채워넣기 df["WeeklyEx.. 2022. 10. 14.
판다스 자주쓰는 명령어2 - pd.merge(df, df2, on = " ", how= " ") df = df.reset_index() # 인덱스 초기화 df_temp = df.head(10) df_temp.reindex(["richard47", "whitelori", "holly23", "SJQUANT", "STOCK_KING", "tina93"]) df.columns # 데이터 프레임 컬럼 확인 df.columns = ["Name", "Gender", "Address", "Mail", "Birth"] df.index.name = "Username" df.head() df = df.rename(columns={"Birth": "Birthdate"}) # 컬럼명 다 입력할 필요없이 Birth -> Birthdate df.head() # 새로운 컬럼 추가하기 # Birthdate를 pandas에서 인.. 2022. 10. 14.
판다스 자주쓰는 명령어 import pandas as pd series = pd.Series([1,2,3,4,5], index = ["a","b","c","d","e"], name = "alphabet") series import pandas as pd df = pd.DataFrame({ "number" : [1,2,3,4,5], "alphabet" : ["a", "b", "c", "d", "e"]} #, index = ["가", "나", "다", "라", "마"] ) df df.head(10) # 위에서부터 10개 데이터 추출 df.tail(10) # 밑에서부터 10개 데이터 추출 # 위치 기반 인덱싱 df.iloc[2:5] # 3번째 데이터부터 5번째 데이터 추출 df.iloc[2:5, 0] df.iloc[[1, 2, 4].. 2022. 10. 14.