결측값 vs 이상값 Missing Value vs Outlier 이상치 vs 결측치 [빅공남! 통계같이 공부해요]
결측값 이상값 Missing Value Outlier 이상치 결측치 빅데이터 분석기사 필기 2과목 통계의 전처리 단원에서는 3가지 큰 주제가 있습니다. 데이터 검정사이트에서 빅데이터 분석기사 시험 주제에 대해서 확인 할 수 있습니다.
[빅데이터 분석기사 2과목 전처리]
1) 데이터 정제
2) 데이터 결측값 처리
3) 데이터 이상값 처리
사진 설명을 입력하세요.
오늘은 데이터 전처리의 주제 제목인 결측값 처리와 이상값처리 공부에 앞어서 결측값 vs 이상값이 어떤 값들인지에 대해서 정리하는 글을 준비했습니다.
1. 결측치(Missing Value)란??
결측치란 값이 비어 있는 데이터를 의미함.
아예 공란으도 되어 있거나,NA(Not Available), NaN(Not a Number), Null 등으로 표현. 아래 그림을 보면 퍼즐 조각이 비어있는 것 처럼 데이터의 값이 누락된 것을 의미함.
2. 이상치(Outlier)란??
일반적인 데이터 값에서 벗어난 값
추세(경향)에서 많이 벗어난 값
ex) 설문 조사에서 누군가가 의도적으로 뜬금없는
대답을 할 경우
3. 결측치와 관련된 이슈(Issue)??
결측치와 관련 된 이슈는 두가지로 정리 할 수 있습니다. 결측값의 종류가 어떤 것인지? 대체 방법이 어떤 것인지?
[데이터 결측치와 관련 된 이슈]
1) 결측치 종류 (MCAR/MAR/MNAR)
2) 결측치 처리 (삭제/단순대체/다중대체)
아래 그림과 같이 결측치에서는 퍼즐 조각을 어떻게 메꿀 것인가? 가 중요한 주제인 것을 이해할 수 있습니다.
4. 이상치와 관련된 이슈(Issue)??
실제 세계 또는 자연현상에서 어떤 데이터를 얻다보면 Random성에 의해서 어떤 추세에서 벗어난 값들이 나올 수 있습니다. 어떻게 추세에서 벗어난 값들을 찾을 것인가? 어떻게 처리할 것인가?가 큰 중요한 주제일 수 있습니다.
[데이터 이상치와 관련 된 이슈]
1) 이상치 탐지 (모수적/비모수적)
2) 이상값 처리
- 데이터 변환(Z-Score)
- 데이터 시각화(Box Plot, Stem-Leaf) 등등
5. 결측값, 이상값 처리가 필요한 이유
데이터의 결측(Missing Value)가 발생하거나 이상값(Outlier)가 발생할 경우 Machine Learning 등 데이터 분석 모델링 결과에 왜곡 또는 편향된 결과를 도래할 수 있습니다. 때문에 지난 포스팅에서 정리한 데이터 전처리와 EDA(탐색적 데이터 분석) 과정을 통해서 분포를 파악하고 데이터를 다시 정제해서 예측되는 모델링 결과에 부합하는 데이터를 만드는 과정이 들어갑니다. 아래 포스팅에서 EDA와 전처리 과정에 대해서 공부를 하면 도움이 됩니다.
6. 데이터 분석 파이썬 결측값??
파이썬에서 데이터 샘플을 타이타닉 생존자 셋을 가지고 와서 판다스 프로파일링으로 EDA를 실습해보았습니다. 물론 판다스 프로파일링을 설치한 상태에서 아래와 같이 파이썬 코딩을 실행해보면 판다스 프로파일 보고서로 결측값이 몇개인지 등을 확인해 볼 수 있습니다.
7. 이상값 vs 결측값 을 마무리 하며...
데이터 전처리의 큰 주제중인 이상값과 결측값에 대해 한번 개요를 정리하는 포스팅을 준비하게 되었습니다. 두 값이 존재하면 데이터 분석 결과에 왜곡 또는 편향된 결과를 미칠 수 있기에 전처리 과정에서 적절히 처리 하는 것이 중요한 주제라고 생각이 들었습니다. 때문에 다음번 포스팅에서는 결측값 유형과 결측값 처리에 대해서 먼저 정리해보고자합니다.
[빅공남 유트브 채널 바로가기]
[빅공남! 통계 같이해요 바로가기]
[빅공남! 문과생을 위한 고등수학 13강]
'빅데이터 > 통계노트' 카테고리의 다른 글
이상값 이상치 Outlier 탐지 [빅공남! 통계 같이 공부해요] (0) | 2021.12.28 |
---|---|
결측값 결측치 종류 및 대체 (MCAR MAR MNAR) [빅공남! 통계 같이 공부해요] (0) | 2021.12.28 |
Preprocessing vs EDA 전처리 vs 탐색적 데이터 분석 [빅공남! 통계같이 공부해요] (0) | 2021.12.28 |
통계 Box Plot Stem-Leaf 시각적 데이터 탐색 차트 [빅공남! 통계 같이 공부해요] (0) | 2021.12.28 |
왜도 Skew 첨도 Kurtosis (분포의 모양 기초통계량) [빅공남! 통계같이 공부해요] (0) | 2021.12.28 |
댓글