결측값 결측치 종류 및 대체 (MCAR MAR MNAR) [빅공남! 통계 같이 공부해요]
결측값 결측치 (Missing Value) 유형 무엇인지, 그리고 결측값을 어떻게 대체할 것인가는 통계, 빅데이터를 다루는 입장에서 중요한 문제중에 하나입니다. 지난 포스팅에서는 결측치 vs 이상치 또는 결측값 vs 이상값의 차이에 대해서 정리를 해보았습니다.
오늘은 지난 포스팅에 이어서 결측값이 종류가 무엇이 있는지? 그리고 대체할 수 있는 방법이 무엇인지 알아보는 포스팅을 시작하려고 합니다. 데이터 검정 사이트에서 빅데이터 분석기사 2과목 빅데이터 탐색 목차를 먼저 살펴 보겠습니다.
데이터 전처리, 데이터 정제, 결측값 처리, 이상값처리, 변수 변환, 불균형 데이터 처리가 2-1과목 굵직한 키워드로 등장을 합니다. 하나의 굵직한 소주제인 결측값 처리에 대해서 오늘 같이 공부하도록 하겠습니다.
1. 결측값(Missing Value) 3가지 유형
1) MCAR(Missing Completely At Random)
☞ 완전 무작위 결측
2) MAR(Missing At Random)
☞ 무작위 결측
3) MNAR(Missing Not At Random)
☞ 비무작위 결측
2. 결측값 유형 (Missing Value) 내용 정리
1) MCAR (Missing Completely At Random)
결측값의 발생이 다른 변수와 상관이 없는 경우를 의미
ex) 전산 오류, 통신문제 등으로 데이터 누락
2) MAR (Missing At Random)
결측값의 발생이 특정 변수와 관련이 있으나 얻고자 하는 결과와는 상관이 없을 경우
ex) 30대 남성이 용돈 설문을 할때 결측값이 자주 발생 30대 남성과 용돈 설문 결측에는 관련이 있음.
하지만 얻고자하는 결과(소득 수준)과 용돈 설문과는
상관관계가 없을 경우
3) MNAR (Missing At Not Random)
결측값 발생이 다른 변수와 상관이 있는 경우
ex) 용돈 설문 ☞ 소득이 일정금액 이하인 사람이 용돈
설문을 결측한다???
소득 수준과 용돈 설문의 결측이 상관성이 있음.
3. 결측값 삭제 (Deletion)
결측값을 삭제하는 경우는 주로 MCAR(완전 무작위 결측)일 때입니다. 결측의 원인이 네트워크, 통신 오류 등으로 다른 변수와 관련성이 없기 때문에 데이터에서 삭제를 해도 상대적으로 예측하는 결과에 영향이 제한적이기 때문입니다. 결측값 삭제에는 2가지 유형이 있습니다.
1) Listwise Deletion
☞ 특정 행의 데이터를 통째로 삭제
☞ Data Sample의 숫자가 적은경우에 List wise삭제
하는 경우 표본 축소로 인한 문제가 발생할 수 있음
2) Pairwise Deletion
☞ 특정값을 삭제
4. 결측값 대체 (Imputation)
결측값을 단순히 삭제를 하는 경우는 데이터 Sample 축소 또는 편향 등 왜곡이 발생 할 수있습니다. 물론 대체하는 경우도 데이터의 왜국이 발생할 수 있으나, 결측값을 합리적인 또는 모델링 결과에 최대한 영향을 덜 왜곡시키는 대체값이 없을까?하는 고민을 하게 됩니다. 그래서 결측값 대체는 단순하게 하나의 값으로 바꾸는
Simple Imputation (특정값 대체)와 Multiple Imputation(다중값 대체)로 나눌수 있습니다.
[결측값 대체 방법에 관한 정리]
4. 결측값 대체(Imputation) 방법 상세
1) Simple Imputation
- 평균값 대체 : Mean, Median, Mode 등으로 대체
- 회귀(Regression) 대체 : 관측된 데이터로 1차 회귀 (Linear Regression) 선을 구함. 결측치를 회귀선의 y값으로 대체
- 확률 모형 값으로 대체 (Stochastic Imputation)
관측된 값들의 평균과 표준편차 등을 계산하고 확률 모형의 무작위 결과(Random, 난수 생성 등)를 통해서 결측값을 대체
- 핫덱 (Hot Deck) 방법
연구중인 자료에서 표본을 바탕으로 비슷한 규칙을 찾아 결측치를 대체
- 콜드 (Cold Deck) 방법
외부 출처에서 비슷한 연구를 찾아 성향을 찾고 결측치를 대체함.
- 혼합 방법
2가지 이상의 방법을 혼합해서 사용
2) 다중대체(Multiple Imputation)
SImple Imputation을 여러 번 반복해서 결측값을 계산하고 결측값의 표본을 만듬. 분포를 통해 확률적(베이지안 방법)으로 결측값을 대체하는 방법
케글사이트에서 결측값 처리에 관한 내용을 표로 잘 정리가 되어있어서 위의 그림으로 정리해보았습니다. 결측값 처리 방법 중에서 Advanced의 KHN Based, MICE 등도 대체 방법으로 공부해보아야 겠습니다. 일단 눈으로 보기 쉽게 대략 결측값의 유형과 대체하는 방법에 관해서 보기 쉽게 정리하는 포스틍일 준비해 보았습니다. 추후, 빅데이터 분석기사 실기 준비를 위해서 파이썬 코딩으로 결측값을 어떻게 다루는지도 정리를 해보고자 합니다.
[빅공남 유트브 채널 바로가기]
[빅공남! 통계 같이해요 바로가기]
[빅공남! 문과생을 위한 고등수학 13강]
'빅데이터 > 통계노트' 카테고리의 다른 글
변수 Feature vs Target, Feature Engineering [빅공남! 통계 같이 공부해요] (0) | 2021.12.30 |
---|---|
이상값 이상치 Outlier 탐지 [빅공남! 통계 같이 공부해요] (0) | 2021.12.28 |
결측값 vs 이상값 Missing Value vs Outlier 이상치 vs 결측치 [빅공남! 통계같이 공부해요] (0) | 2021.12.28 |
Preprocessing vs EDA 전처리 vs 탐색적 데이터 분석 [빅공남! 통계같이 공부해요] (0) | 2021.12.28 |
통계 Box Plot Stem-Leaf 시각적 데이터 탐색 차트 [빅공남! 통계 같이 공부해요] (0) | 2021.12.28 |
댓글