본문 바로가기

전체 글61

MinMax Standard Robust Scaler 변수 변환 [빅공남! 통계 같이해요] MinMax Scaler Standard Scaler Robust Scaler 빅데이터 분석기사 빅분기 통계 2과목 소주제 변수변환에 대해서 공부를 정리하고자 합니다. 특히, 오늘 포스팅에서는 Scaler 종류 3가지에 대해서 포스팅과 유튜브 영상으로 정지를 하려고합니다. 먼저 변수변환에 대해서 알아보고, 각 Scaler의 이론적인 의미 그리고 파이썬 코딩실습 등으로 내용을 살펴보겠습니다. 유튜브 공부영상 링크는 포스팅 맨 하단에 첨부하겠습니다. 빅데이터 분석기사 목차를 다시 한번 살펴보고자 합니다. 목차를 보면 변수변환이라는 소주제를 확인할 수 있습니다. 데이터 검정에서 공개된 빅분기 작업형 예제 1번을 보면 다음과 같습니다. 오늘 포스팅은 Min-Max Scaler와 같은 변수변환이 어떤 의미인지에 .. 빅데이터/통계노트 2022. 3. 8.
파생변수 요약변수 Derived Variable Summary Variable [빅공남! 통계 같이해요] 파생변수 요약변수 빅데이터 분석기사 2과목 주제 중에 하나인 파생변수에 대해서 정리해보고자 합니다. 지난 포스팅까지는 차원축소에 대해서 여러 포스팅으로 나누어서 정리를 했었습니다. 오늘은 주로 파생변수와 요약변수의 차이점과 특징에 대해서 알아보고자 합니다. 데이터 검정 사이트에 가면 빅데이터 분석기사 필기 시험에 대한 설명을 볼 수 있습니다. 아래 그림은 데이터 검정 사이트에서 2과목 빅데이터 탐색의 소주제를 참조해서 가지고 왔습니다. 1. 데이터 마트(Data Mart)? 파생변수에 대해 공부하기 앞서 데이터 마트에 대해서 살펴보고자 합니다. 데이터 웨어하우스, 데이터 마트라는 저장공간이 있습니다. 데이터 웨어하우수(DW), 데이터 마트(DM)을 알아보고자 아래 그림을 보면서 이해해보고자 합니다. 수집.. 빅데이터/통계노트 2022. 3. 1.
SVD Singular Value Decomposition 특이값분해 [빅공남! 통계 같이해요] SVD Singular Value Decomposition 특이값 분해 차원축소 기법 공부 주제로 오늘 포스팅을 준비하였습니다. 오늘 내용은 행렬과 관련된 주제로 선형대수학과 관련이 깊습니다. 선형대수학에서 등장하는 행렬의 SVD 기법을 활용해서 데이터 분석에서는 어떻게 차원축소로 연결되는지 알아보고자 합니다. 1. Data는 벡터? Data는 행렬? 데이터는 각각의 행에 대해서 벡터로 볼 수 있습니다. 아개 그림과 같이 1개의 행은 1개의 Sample로 볼 수 있습니다. Sample 여러 개를 모아놓은 데이터는 행렬(Matrix)로 이해할 수 있습니다. 그래서 데이터 분석 차원에서 SVD는 데이터를 행렬(Matrix)로 보고, Matrix의 Feature를 어떻게 추출할 것인가?와 관련이 있습니다. S.. 빅데이터/통계노트 2022. 2. 24.
LDA Linear Discriminant Analysis [빅공남! 통계 같이해요] LDA Linear Discriminant Analysis 선형판별분석 차원축소 기법 공부를 주제로 오늘 포스팅을 준비했습니다. 지난 포스팅에서 공부했던 PCA(Principle Compnent Analysis) 주성분분석과 Linear Projection한다는 점에서는 비슷한 방법이라고 할 수 있습니다. 하지만 두 기법은 축(Axis)를 다른 방법으로 잡아간다는 점에서 다른 차원 축소 기법입니다. 그래서 오늘 포스팅에서는 LDA에 대해서 알아보고 어떤 차이점이 있는지 알아보도록 합니다. 유튜브 영상은 포스팅 맨 하단에 첨부하도록 하겠습니다. 1. LDA(Linear Discriminant Analysis)란? LDA 선형판별분석은 단어 그래도 LInear하게 Discriminant 판별하는 분석법입니다.. 빅데이터/통계노트 2022. 2. 14.
Scree Plot PCA Eigenvalue Explained Ratio [빅공남! 통계 같이해요 ] Scree Plot PCA Principle Analysis Explained Ratio Eigenvalue Covariance Marix 차원축소 공부에 도움되는 내용을 다루고 있습니다. 오늘 포스팅에서는 Scree Plot에 대해서 정리를 해보고자합니다. Scree Plot은 PCA 주성분분석에서 고유값의 비율(Explained Ratio)를 차트로 시각화한 것입니다. 먼저 오늘 포스팅을 공부하기 앞서 빅공남 통계 26번째 영상에서 PCA 기법에 관한 내용들을 공부하고 Scree Plot을 보시면 도움이 되실 것입니다. 지난 포스팅 링크 먼저 첨부하도록 하겠습니다. PCA Principle Component Analysis 주성분분석 [빅공남! 통계 같이해요] PCA(Principle Componen.. 빅데이터/통계노트 2022. 2. 9.
PCA Principle Component Analysis 주성분분석 [빅공남! 통계 같이해요] PCA(Principle Component Analysis) 주성분 분석은 차원축소 기법 중 중요한 개념중에 하나입니다. 차원 축소(Dimensional Reduction)는 정사영(Projection)을 통해서 줄일 수 있는데 오늘 포스팅에서는 이 기법의 시각적인 이해화 수식을 100% 정리하지는 않지만 직관적인 의미 정도를 전달하고자 합니다. 먼저 빅공남 통계 23번째 영상에서는 2차원을 1차원으로 축소하는 정사영(Projection)에 대해서 공부했었습니다. 지난 포스팅 링크 먼저 첨부하겠습니다. 정사영 Projection 2d to 1d 2차원 1차원 차원축소 [빅공남! 통계 같이해요] 정사영 Projection 2차원 1차원 차원축소 개념 등에서 중요한 내용 중에 하나입니다. 빅데이터 분석에서 .. 빅데이터/통계노트 2022. 2. 5.
Feature Selection Feature Extraction 차원축소 PCA LDA t-SNE SVD [빅공남! 통계 같이해요] Feature Selection Feature Extraction 변수 선택 변수 추출 무슨 차이가 있을까? 차원 방법은 크게 변수 선택과 변수 추출로 나누어서 생각해볼 수 있습니다. 오늘 포스팅에서는 두 차이점이 무엇인지 알아보고 각각의 기법이 어떤 것들이 있는지 흐름만 잡는 포스팅과 유튜브 영상을 준비했습니다. 관련 링크는 포스팅 하단에 첨부하도록 하겠습니다. 1. 변수 선택 vs 변수 추출 (Feature Selection vs Extraction) 1) 변수 선택 : n개의 변수중에서 부분적으로 몇개를 사용할지 선택함. 2) 변수 추출 : n개의 변수 중에서 원본 데이터를 설명하면서 적은 개수로 new Feature 생성하고 new Feature의 Linear/Nonliear한 결합으로 만든 공간.. 빅데이터/통계노트 2022. 1. 29.
Vector Inner Product Dot Product 벡터 내적 선형대수 [빅공남! 통계 같이해요] Vector dot product inner product 벡터 내적 개념은 빅데이터 공부에서 중요한 개념 중에 하나입니다. 빅데이터 공부에서 차원축소 기법 중에서 PCA 주성분분석을 공부하다보면 수직으로 축을 잡아간다는 개념이 등장합니다. 고차원 공간에서 수직의 의미를 이해하려면 먼저 내적의 의미와 계산방법을 이해하고 있어야만합니다. 그래서 오늘 포스팅에서는 내적과 수직의 개념에 대해서 정리를 해보고자합니다. 유튜브 공부영상 링크는 포스팅 하단에 첨부하도록 하겠습니다. 벡터의 내적을 요약하면 2가지로 설명할 수 있습니다. 1) 벡터의 크기 2) 벡터의 각도 (코사인) 그래서 위의 개념을 설명하기 위해서 아래 3가지 관점에서 이해하고자합니다. 1) 벡터의 크기 2) 벡터의 내적 3) 벡터의 수직 1. 벡.. 빅데이터/통계노트 2022. 1. 27.
정사영 Projection 2d to 1d 2차원 1차원 차원축소 [빅공남! 통계 같이해요] 정사영 Projection 2차원 1차원 차원축소 개념 등에서 중요한 내용 중에 하나입니다. 빅데이터 분석에서 차원을 축소한다는 개념에서 벡터의 정사영 Projection 개념을 이해하면 도움이 됩니다. 2차원에서 1차원으로 정사영 시키는 것을 시각화 해서 영상을 준비해보았습니다. 2차원을 1차원으로 정사영(Projection)시키는 내용을 준비하고자, 파이썬 코딩 실습을 해보았습니다. 구글 코랩에서 파이썬 코딩실습을 했고, 결국 파이썬 코딩으로 직선을 360도 회전시키면서 정사영 하는 내용을 성공하였습니다. 각도를 바꿔가면서 아래 그림을 만들어 냈습니다. 1. 정사영(Projection)이란? 어떤 벡터u를 v벡터로 프로젝션 시킨다는 것은 수직으로 빛의 그림자를 만들어서 v젝터에 평행한 벡터로 만드는 .. 빅데이터/통계노트 2022. 1. 25.
Dimension Reduction 차원 축소 이유 Why? [빅공남! 통계 같이해요] 차원축소 Demension Reduction 데이터 분석 왜 하는가? 빅데이터 딥러닝 머신러닝 등에서 중요한 개념중에 하나입니다. 차원축소를 왜 해야하는지?를 3가지 관점에서 정리를 해보고자 합니다. 차원의 저주 Curse of Dimension 이라는 개념도 등장하게 됩니다. 관련 유튜브 동영상 링크는 포스팅 맨 하단에 첨부하도록 하겠습니다. 1. 차원(Dimension) 축소(Reduction)? 1) 차원(Dimension)이란? 데이터 분석에 사용되는 변수의 개수 2) 차원(Dimension)축소 차원을 줄인다? ☞ 사용되는 변수의 개수를 줄인다. 차원 축소의 개념은 결국 변수의 숫자를 줄이는 것입니다. 하지만 변수의 개수를 줄인다면 데이터 정보의 손실은 감수해야하는 부분입니다. 아래 그림처럼 5.. 빅데이터/통계노트 2022. 1. 24.