본문 바로가기
Data Science/Python

판다스 자주쓰는 명령어3 - 결측값 대체

by 로떡 2022. 10. 14.
df.dtypes # 각 컬럼별 타입 확인하기

df = df.astype({"Age" : "int8", "Salary" : "float32", "WeeklyDrink" : "float32"
				, "Weekly Exercise" : "float32"})
df.dtypes

# 기본적인 통계지표 확인하기

df.describe()

df.loc[:, "Age", "Salary", "WeeklyDrink", "WeeklyExercise"]].corr()

컬럼 간 상관관계

# NaN 제거

df = df.dropna() # NaN 값이 포함되어있는 데이터 모두 제거
len(df) # 개수 확인

# NaN 채우기

df["WeeklyDrink"] = df["WeeklyDrink"].fillna(0) # 0으로 채워넣기
df["WeeklyExercise"] = df["WeeklyExercise"].fillna(method="ffill") # NaN이 나오기 전 값으로 뒤의 NaN값 채워넣기 (forward fill)
df["Salary"] = df["Salary"].fillna(df["Salary"].median()) # 중간값으로 채워넣기
df.tail()

# 데이터 값 변경하기

df["Gender"] = df["Gender"].replace({"M" : "male", "F" : "female"}) # M을 male로 F를 female로
df.head()

출처 : https://sjquant.tistory.com/ 님 포스트 연습