본문 바로가기

변수선택(필터/랩퍼/임베디드) [빅공남! 통계 같이 공부해요]

KAIST수학전공쌤 2021. 12. 31.

 

필터 랩퍼 임베디드 3가지 기법 분석 변수 처리에 관해서 오늘 포스팅을 준비했습니다. 2과목 빅데이터 탐색에서 데이터 전처리 두번째 주제가 분석 변수 처리입니다.

위의 주제를 공부하기 앞서, Feature와 Label의 차이에 관한 지난 포스팅을 참고하고 오늘 포스팅을 보면 도움이 됩니다.

지난 시간에는 원인 변수인 Feature와 결과 변수인 Target 또는 Label에 대해서 알아보았고 오늘은 변수를 선택하는 방법 3가지에 대해서 정리해보고자 합니다,
 

1. 변수 선택 (필터/랩퍼/임베디드?)

위의 그림을 보면 3가지 기법을 간단하게 쉽게 비교해볼 수 있습니다.

1) 필터(Filter) 기법

Ranking ☞ Top?

2) 랩퍼(Wrapper) 기법

Repetation? ☞ Optimal?

3) 임베디드(Embedded) 기법

Model Embedded?

 

위의 내용처럼 간단한 키워드로 정리해보았습니다. 이제는 다시 디테일하게 각 기법의 내용에 대해서 정리를 해보겠습니다.

 

아래 그림을 통해서 다시 한번 살펴 보면,

Filter Method는 어떤 통계량(주로 상관계수)로 변수 선택 Wrapper Method는 머린러닝 알고리즘에 변수를 선택하고 Performance를 측정하고 반복해나가면서 변수를 잡아가는 것이고 Embedded 기법은 예측 및 최적화 모델링 안에서 변수가 결정되는 방법을 가르킵니다.

 

이제 각 기법을 간단한 그림을 보면서 이해해보겠습니다.

 

2. 필터 기법(Filter Method)

위의 그림처럼 원인 변수(Feature)와 결과 변수(Target)사이에 상관계수를 모두 구한 후, 상관성이 높은 변수 위주로 선택 또는 필터하는 기법이라고 볼 수 있습니다. 주로 상관성을 나타내는 통계량으로 상관계수를 쓰고 다른 통계 검정 값을 사용할 수도 있습니다. 변수의 숫자가 많을 경우 EDA, 전처리 과정에서 변수를 필터해낼 수 있고 속도가 빠릅니다.

 

3. 랩퍼 기법(Wrapper Method)

 

 

 

 

 

랩퍼기법은 머신러닝 알고리즘에 변수의 Subset을 Input으로 넣어가면서 성능을 측정하는 방식입니다. 모형적합도(AIC)라는 퍼포먼스 측정값을 만들고 성능이 좋지 않으면 변수를 계속 늘려가거나 축소하기를 반복하면서 Subset을 찾아가게 됩니다. 이때 정확성은 높일 수 있으나 Cost 즉 비용과 시간이 발생하게 됩니다. Wrapper라는 단어는 반복하는 과정이 랩처럼 덮는다는 의미로 붙여진 것 같습니다.

 

4. 임베디드 기법(Embedded Method)

임베디드(Embedded MEthod)는 변수 선택 모델링 과정 안에서 변수가 선택되는 경우를 가르킵니다. 회귀분석 같이 변수가 모델링에서 나오는 경우를 가르키고 예를 들어 라쏘 회귀, 릿지 회귀, 엘라스틱 넷 등이 있습니다.

 

수학을 전공한 빅데이터를 공부하는 남자 빅공남은 추후 선형대수와 관련해서 쉽게 이해할 수 있는 내용을 정리해보고자 합니다. 오늘 긴 포스팅은 여기서 마치겠습니다.

유튜브 영상으로 공부에

조금이나마 도움이 되는 영상

준비했습니다.

포스팅 맨!! 아래 유트브 링크

첨부합니다.

★구독과 좋아요★

빅공남을 춤추게 합니다 !!

[빅공남 유트브 채널 바로가기]

 

[빅공남! 통계 같이해요 바로가기]

[빅공남! 문과생을 위한 고등수학 13강]

<Reference>

https://www.kaggle.com/getting-started/189287

https://dataaspirant.com/feature-selection-methods-machine-learning/

https://sonsnotation.blogspot.com/2020/10/data-mining.html

 

 

 

 

댓글