728x90
반응형
빅데이터 분석기사 실기 기출문제 파이썬 연습
오늘은 2유형의 꽃인 데이터 전처리를 연습해본다.
사실 2유형은 데이터 전처리가 필수지만, 여태까지 결측치가 나온적은 없다 (적어도 내가 시험봤 두번 다..ㅎ)
하지만 빅데이터 분석에 필수이기도 하고 뭐. 알아둬서 나쁠건 없지!
1. 결측치 찾기
일단 dropna 를 사용하기 전, 결측치가 있는지 없는지를 판단하기를 위해 null 값을 찾고, sum()을 해준다
df.isnull().sum()
이 데이터 셋엔 결측치가 없는 것을 확인.
2. 만약 결측치가 있다면 ? 결측치 제거
df.dropna() # 모든 행을 삭제
df.dropna(axis = 1) # 결측치가 포함된 열을 삭제
행/ 열을 삭제해 주는 것이 하나의 방법
3. 결측치 채우기
사실 결측치를 제거하는 것보다 결측치를 채우는 것이 더 나을 때가 있다.
그럴땐 fillna()를 사용해 데이터를 특정 값으로 채울 수있다.
df['wine']= df['wine'].fillna() # 0으로 결측치 채우기
df['wine']= df['wine'].fillna(df['wine'].mean()) # 결측치 평균으로 채우기
아주 쉽쥬 ~!
내일은 2유형 연습 도전~!
728x90
반응형
댓글