본문 바로가기

차원축소 변수 독립 종속 dependent independent 선형대수 Linear Algebra [빅공남! 통계 같이해요]

KAIST수학전공쌤 2022. 1. 16.

차원축소 변수 독립 종속 dependent independent 개념을 수학적으로 이해를 하면 도움이 됩니다. 바로 선형대수(Linear Algebra)의 독립과 종속의 개념을 도입하면 쉽게 이해할 수 있습니다/ 그래서 데이터 분석에서 차원 축소 기법을 공부하기 앞서, 오늘 포스팅 및 유튜브 영상링크를 보시면 도움이 될 수 있습니다. 유튜브 영상은 포스팅 맨 아래 첨부하겠습니다. 

 

오늘 내용을 이해하기 위해서는 지난 포스팅을 미리 공부하고 오면 도움이 됩니다.

 

Vector Linear Combination 선형대수 선형결합 일차결합 [빅공남! 통계 같이 공부해요]

Vector Linear Combination 선형결합 일차결합 개념은 차원을 이해하기 위한 중요한 개념중에 하나입니다. 선형대수(Linear Algebra)에 등장하는 Linear Combination 개념을 오늘 포스팅 주제로 선정했습니다. 데

seeyapangpang.tistory.com

 

Vector Linear Combination 선형대수 선형결합 일차결합 [빅공남! 통계 같이 공부해요]

Vector Linear Combination 선형결합 일차결합 개념은 차원을 이해하기 위한 중요한 개념중에 하나입니다. 선형대수(Linear Algebra)에 등장하는 Linear Combination 개념을 오늘 포스팅 주제로 선정했습니다. 데

seeyapangpang.tistory.com

 

 

Data = Vector 데이터는 벡터로 표현? [빅공남 통계 같이 공부해요]

Vector 벡터로 Data를 표현할 수 있다? 빅데이터 머신러닝, 딥러닝 등을 공부하기 위해서는 Data는 벡터로 표현된다는 것이 중요합니다. 이는 선형대수 Linear Algebra와 관련이 있습니다. 데이터 분석에

seeyapangpang.tistory.com

 

 

상관계수 Correlation 이란 무엇인가??? [빅공남! 통계 같이 공부해요]

상관계수 Correlation 이란 무엇인가?는 통계, 기초통계학, 빅데이터, 머신러닝 등에서 반드시 알아야할 기초 개념중에 하나입니다. 상관계수를 공부하려면 먼저 공분산의 개념을 이해해야기 때문

seeyapangpang.tistory.com

1. 두 변수의 종속과 독립

두 변수가 종속(dependent)이라는 의미는 강한상관관계를 가지는 경우를 의미합니다. 즉 상관계수가 -1 또는 1에 가까운 값을 가지는 경우입니다. 그래서 종속(dependent)라는 의미는 두 변수간에 직선상관관계가 있고 y=ax+b로 쓸 수 있는 것을 의미합니다. 이는 다시 두 변수가 하나의 변수처럼 움직이는 것을 의미하는데 이런 관점에서 차원축소가 될 수 있는 것입니다. 두 변수가 약한 상관관계를 가질 때, 즉 상관계수가 0에 가까울때 두 변수는 독립이라는 표현을 사용합니다.

 

앞선 포스팅에서 정리했듯이 두 변수가 독립 vs 종속은 아래 데이터를 그림을 보면서 대략 이해해볼 수 있습니다.

데이터의 열(Column)이 변수를 가르키고 Row는 데이터 순서쌍으로 하나의 행은 각각 벡터로 표현할 수 있습니다.

아래 그림을 보면 두 변수가 종속 된 경우 상관계수가 1또는 -1에 가까워서 직선의 분포를 연상할 수 있습니다.

2. 3차원에서 두 변수가 종속인 경우 시각화해보기

데이터의 요인이 3개인 경우를 살펴보겠습니다. 데이터의 열(Column)이 3개인 경우를 의미합니다. 여기서 요인2와 요인3이 종속(dependent)이라고 가정합니다. 

요인2와 요인3이 종속이라는 의미는 강한 상관관계를 가지는 것을 나타내고 두 변수는 직선관계를 나타낼 것입니다. 그림처럼 요인2와 요인3이 y = ax+b로 표현되는 상황을 의미합니다.

이 직선이 y=2x+3의 형태를 가진다고 가정하겠습니다. 즉 기울기가2이고 y절편이 3인 상황입니다.

아래 그림과 같이 요인3이 요인2로 표현되기 떄문에 X3 = 2X2+3을 대입합니다.

그 다음 벡터를 분해해서 표현을 해봅니다.

 

벡터의 상수벡터를 바깥쪽으로 다시 분해하면 다음과 같습니다.

이번에는 벡터의 상수배(스칼라곱)으로 묶어서 생각을 해보겠습니다. 그러면 다음과 같이 표현할 수 있습니다.

최종적으로 벡터를 묶어서 정리하면 아래와 같습니다. 아래 그림을 보면 두 벡터에 x1, x2의 스칼라곱에 벡터 덧셈으로 이루어진 것을 확인할 수 있습니다. 즉, 원래 주어진 벡터는 3차원 벡터이지만, 두 변수가 종속되어 있다면 2개의 벡터에 의해서 움직이는 것을 확인할 수 있습니다. 그래서 결국 2차원이 된는 것입니다.

이처럼 세가지 변수가 있을 경우, 두변수가 종속이라면 차원이 3차원에서 2차원으로 축소됨을 알 수 있습니다. 대략적으로 시각화한다면 지난 포스팅에서 정리했던 그림을 연상할 수 있습니다. 두 벡터의 일차결합으로 만들어진 공간은 결국 3차원 공간에서 2차원 평면을 이루는 것입니다. 이러한 의미로 3차원에서 2차원으로 차원이 축소되었다는 표현을 할 수 있는 것입니다.

3. 5차원에서 2개 2개씩 종속이라면?

다음 그림과 같이 5개의 요인이 있는 경우를 살펴보겠습니다. 만약 x2와 x3 강한상관관계, 즉 종속이고 x4,x5가 종속이라고 생각해봅니다. x2,x3는 y=-2x+1 직선분포를 나타내고 x4,x5 = 3x+5의 직선분포를 나타낸다고 가정합니다.

아래 그림과 같이 벡터를 분해해서 볼 수 있습니다. 아래 그림을 보면 결국 3개의 벡터에 상수배에 덧셈으로 좌표가 결정이 됩니다. 5차원 공간이 결국 3개의 요인에 의해서 변동되기 때문에 3차원 공간으로 축소 할 수 있는 것입니다.

4. 정리하며.. 다음 이슈?

데이터를 벡터로 표현하고 변수간에 종속관계가 있을 떄 어떻게 차원이 축소되는 원리를 시각화해서 이해해보았습니다. 다음 이슈는 원본 데이터의 성질을 보존하면서 어떻게 차원을 축소할 것인가?에 관한 주제로 공부를 하고자합니다

댓글