본문 바로가기

빅데이터7

MinMax Standard Robust Scaler 변수 변환 [빅공남! 통계 같이해요] MinMax Scaler Standard Scaler Robust Scaler 빅데이터 분석기사 빅분기 통계 2과목 소주제 변수변환에 대해서 공부를 정리하고자 합니다. 특히, 오늘 포스팅에서는 Scaler 종류 3가지에 대해서 포스팅과 유튜브 영상으로 정지를 하려고합니다. 먼저 변수변환에 대해서 알아보고, 각 Scaler의 이론적인 의미 그리고 파이썬 코딩실습 등으로 내용을 살펴보겠습니다. 유튜브 공부영상 링크는 포스팅 맨 하단에 첨부하겠습니다. 빅데이터 분석기사 목차를 다시 한번 살펴보고자 합니다. 목차를 보면 변수변환이라는 소주제를 확인할 수 있습니다. 데이터 검정에서 공개된 빅분기 작업형 예제 1번을 보면 다음과 같습니다. 오늘 포스팅은 Min-Max Scaler와 같은 변수변환이 어떤 의미인지에 .. 빅데이터/통계노트 2022. 3. 8.
Feature Selection Feature Extraction 차원축소 PCA LDA t-SNE SVD [빅공남! 통계 같이해요] Feature Selection Feature Extraction 변수 선택 변수 추출 무슨 차이가 있을까? 차원 방법은 크게 변수 선택과 변수 추출로 나누어서 생각해볼 수 있습니다. 오늘 포스팅에서는 두 차이점이 무엇인지 알아보고 각각의 기법이 어떤 것들이 있는지 흐름만 잡는 포스팅과 유튜브 영상을 준비했습니다. 관련 링크는 포스팅 하단에 첨부하도록 하겠습니다. 1. 변수 선택 vs 변수 추출 (Feature Selection vs Extraction) 1) 변수 선택 : n개의 변수중에서 부분적으로 몇개를 사용할지 선택함. 2) 변수 추출 : n개의 변수 중에서 원본 데이터를 설명하면서 적은 개수로 new Feature 생성하고 new Feature의 Linear/Nonliear한 결합으로 만든 공간.. 빅데이터/통계노트 2022. 1. 29.
Dimension Reduction 차원 축소 이유 Why? [빅공남! 통계 같이해요] 차원축소 Demension Reduction 데이터 분석 왜 하는가? 빅데이터 딥러닝 머신러닝 등에서 중요한 개념중에 하나입니다. 차원축소를 왜 해야하는지?를 3가지 관점에서 정리를 해보고자 합니다. 차원의 저주 Curse of Dimension 이라는 개념도 등장하게 됩니다. 관련 유튜브 동영상 링크는 포스팅 맨 하단에 첨부하도록 하겠습니다. 1. 차원(Dimension) 축소(Reduction)? 1) 차원(Dimension)이란? 데이터 분석에 사용되는 변수의 개수 2) 차원(Dimension)축소 차원을 줄인다? ☞ 사용되는 변수의 개수를 줄인다. 차원 축소의 개념은 결국 변수의 숫자를 줄이는 것입니다. 하지만 변수의 개수를 줄인다면 데이터 정보의 손실은 감수해야하는 부분입니다. 아래 그림처럼 5.. 빅데이터/통계노트 2022. 1. 24.
차원축소 변수 독립 종속 dependent independent 선형대수 Linear Algebra [빅공남! 통계 같이해요] 차원축소 변수 독립 종속 dependent independent 개념을 수학적으로 이해를 하면 도움이 됩니다. 바로 선형대수(Linear Algebra)의 독립과 종속의 개념을 도입하면 쉽게 이해할 수 있습니다/ 그래서 데이터 분석에서 차원 축소 기법을 공부하기 앞서, 오늘 포스팅 및 유튜브 영상링크를 보시면 도움이 될 수 있습니다. 유튜브 영상은 포스팅 맨 아래 첨부하겠습니다. 오늘 내용을 이해하기 위해서는 지난 포스팅을 미리 공부하고 오면 도움이 됩니다. Vector Linear Combination 선형대수 선형결합 일차결합 [빅공남! 통계 같이 공부해요] Vector Linear Combination 선형결합 일차결합 개념은 차원을 이해하기 위한 중요한 개념중에 하나입니다. 선형대수(Linear .. 빅데이터/통계노트 2022. 1. 16.
Data = Vector 데이터는 벡터로 표현? [빅공남 통계 같이 공부해요] Vector 벡터로 Data를 표현할 수 있다? 빅데이터 머신러닝, 딥러닝 등을 공부하기 위해서는 Data는 벡터로 표현된다는 것이 중요합니다. 이는 선형대수 Linear Algebra와 관련이 있습니다. 데이터 분석에서 특히 차원축소 개념을 이해하기 위해서는 행렬(Matrix), 벡터(Vector), 베이시스(Basis), 선형(Linear) 등의 내용을 이해하고 있으면 도움이 됩니다. 빅데이터 분석기사 2과목 데이터 탐색에 나오는 목차는 다음과 같습니다. 목차의 분석변수 처리에 보면 차원축소라는 단어가 등장하는 것을 확인 할 수 있습니다. 차원축소 기법인 주성분분석(PCA)기법 등을 이해하기 위한 오늘 포스팅은 바로 데이터가 벡터라는 것입니다. 1. 벡터(Vector)는 좌표로 나타낼 수 있다? 벡터.. 빅데이터/통계노트 2022. 1. 8.
다중 선형 회귀분석 Multiple Linear Regression 이란 무엇인가??? [빅공남! 통계 같이 공부해요] 다중 선형 회귀분석 Multiple LInear Regression 은 빅데이터, 머신러닝, 통계 등에서 반드시 알아야할 개념중에 하나입니다. 지난 빅공남 통계 14번 포스팅에서 단순 선형회귀(Simple Linear Regression)을 주제로 정리 했었습니다. 오늘 다중 선형회귀 분석에 앞서, 지난 14번 포스팅 링크를 첨부하겠습니다. 다중 선형회귀 유트브 공부 영상은 포스팅 맨 아래에 첨부하겠습니다. 선형 회귀분석 기초 쌓기 Linear Regression 이란 무엇인가??? [빅공남! 통계 같이 공부해요] . 회귀분석(Regression) 이란 무엇인가?는 통계, 기초통계학, 빅데이터, 머신러닝 등에서 반드시 알아야할 기초 개념중에 하나입니다. 회귀분석(Regression)를 공부하려면 먼저 상.. 빅데이터/통계노트 2021. 12. 31.
공분산 Covariance 란 무엇인가??? [빅공남! 통계 같이 공부해요] 공분산(Covariance)란 무엇인가?는 통계 및 기초통계학 공부를 하는데 있어서 중요한 개념중에 하나 입니다. 빅데이터 분석기사 2과목 빅데이터 탐색에서 중요한 주제인 상관계수를 공부하기 앞서 공분산 Covariance의 개념에 대해서 정리하는 포스팅을 준비했습니다. 상관계수를 공부하다보면 공분산(covariance)라는 말이 나옵니다. 상관계수는 그리고 두 변수간의 직선관계, 1차식의 계수를 찾아가는 과정이라고 하는데요... 하지만 다음과 같이 수식을 보면 머리가 아파집니다. 상관계수는 -1에서 1사이의 값을 가지고 직선성을 나타낸다고 하는데... 수식을 살펴보면 상관계수 식에는 공분산(Covariance) 개념이 들어갑니다. 수식을 파고들기보다는 직관적으로 어떤 의미를 가지는가?에 대해서 포커스를.. 빅데이터/통계노트 2021. 12. 31.