본문 바로가기

빅데이터34

Box Cox Transformation 파이썬 박스 콕스 변환 Skew 조절 [빅공남! 통계 같이해요] Box Cox Transformation 파이썬 박스 콕스 Skew 조절 함수 변환에 대해서 공부하는 포스팅과 유튜브 영상을 준비했습니다. Box Cox 변환은 특히 지난 시간에 공부했던 지수,로그,루트,역수 변환 등 데이터의 함수변환을 포괄하는 개념으로 적절한 변환으로 정규분포에 가깝도록 만드는 분포입니다. 먼저 오늘 Box Cox Transformation을 공부하기 앞서, 지난 포스팅의 함수변환에 관한 내용을 공부하고 오늘 포스팅과 유튜브 영상을 보시면 도움이 되실 것입니다. 지난 포스팅 링크는 아래와 같습니다. Log Transformation 로그/지수/제곱/루트/역수 함수변환 [빅공남! 통계 같이해요] Log Transformation 로그 지수 루트 역수 제곱 변환 등 데이터의 변수 변환 기.. 빅데이터/통계노트 2022. 3. 31.
Log Transformation 로그/지수/제곱/루트/역수 함수변환 [빅공남! 통계 같이해요] Log Transformation 로그 지수 루트 역수 제곱 변환 등 데이터의 변수 변환 기법 중에 하나인 함수 변환에 대해서 같이 공부하는 포스팅과 유튜브 영상을 준비했습니다. 특히, 로그 변환은 Data의 Skew를 조절하는 중요한 내용 중에 하나입니다. 데이터 분석과 공학에서 자주 등장하는 Log Normal Distribution과도 연관이 있는 내용입니다. 오늘은 어떻게 함수변환을 직관적으로 쉽게 이해할 것인가 초점을 맞추고 내용을 정리하도록 하겠습니다. 데이터 검정 사이트에서 변수변환은 하나의 소주제임을 확인할 수 있습니다. 지난 포스티엥 이어서 계속 변수 변환에 대해서 정리를 해나가고 있습니다. 변수 변환 기법은 크게 4가지로 정리하고 있습니다. 1) Scaler(Min-max/Z-score.. 빅데이터/통계노트 2022. 3. 26.
구간화(Binning) 더미변수(Dummy Variable) pd.cut[빅공남! 통계 같이해요] 구간화(Binning) 더미변수(Dummy Variable) 변수변환 빅데이터 분석기사 빅분기 변수변환 주제로 오늘 포스팅을 준비했습니다. 지난 포스팅에서는 변수변환 방법으로 Scaler에 대해서 공부를 했었습니다. 오늘은 연속형, 변수형 변수를 서로 변환하는 내용에 대해서 주로 다루고자합니다. 이론적인 내용과 파이썬 코딩 실습을 같이하는 포스팅과 유튜브 영상을 준비했습니다. 유튜브 영상 링크는 포스팅 맨 하단에 첨부하도록 하겠습니다. 지난 포스팅에서 정리했듯이, 변수변환 방법은 4가지로 정리를 해보고 있습니다. - Scaler(Min-max, Z-score, Robust) - 구간화(Binning) - 더비 변수(Dummy Variable - 함수 변환(지수,로그,루트,역수 등등....) 오늘은 4가지.. 빅데이터/통계노트 2022. 3. 9.
MinMax Standard Robust Scaler 변수 변환 [빅공남! 통계 같이해요] MinMax Scaler Standard Scaler Robust Scaler 빅데이터 분석기사 빅분기 통계 2과목 소주제 변수변환에 대해서 공부를 정리하고자 합니다. 특히, 오늘 포스팅에서는 Scaler 종류 3가지에 대해서 포스팅과 유튜브 영상으로 정지를 하려고합니다. 먼저 변수변환에 대해서 알아보고, 각 Scaler의 이론적인 의미 그리고 파이썬 코딩실습 등으로 내용을 살펴보겠습니다. 유튜브 공부영상 링크는 포스팅 맨 하단에 첨부하겠습니다. 빅데이터 분석기사 목차를 다시 한번 살펴보고자 합니다. 목차를 보면 변수변환이라는 소주제를 확인할 수 있습니다. 데이터 검정에서 공개된 빅분기 작업형 예제 1번을 보면 다음과 같습니다. 오늘 포스팅은 Min-Max Scaler와 같은 변수변환이 어떤 의미인지에 .. 빅데이터/통계노트 2022. 3. 8.
파생변수 요약변수 Derived Variable Summary Variable [빅공남! 통계 같이해요] 파생변수 요약변수 빅데이터 분석기사 2과목 주제 중에 하나인 파생변수에 대해서 정리해보고자 합니다. 지난 포스팅까지는 차원축소에 대해서 여러 포스팅으로 나누어서 정리를 했었습니다. 오늘은 주로 파생변수와 요약변수의 차이점과 특징에 대해서 알아보고자 합니다. 데이터 검정 사이트에 가면 빅데이터 분석기사 필기 시험에 대한 설명을 볼 수 있습니다. 아래 그림은 데이터 검정 사이트에서 2과목 빅데이터 탐색의 소주제를 참조해서 가지고 왔습니다. 1. 데이터 마트(Data Mart)? 파생변수에 대해 공부하기 앞서 데이터 마트에 대해서 살펴보고자 합니다. 데이터 웨어하우스, 데이터 마트라는 저장공간이 있습니다. 데이터 웨어하우수(DW), 데이터 마트(DM)을 알아보고자 아래 그림을 보면서 이해해보고자 합니다. 수집.. 빅데이터/통계노트 2022. 3. 1.
SVD Singular Value Decomposition 특이값분해 [빅공남! 통계 같이해요] SVD Singular Value Decomposition 특이값 분해 차원축소 기법 공부 주제로 오늘 포스팅을 준비하였습니다. 오늘 내용은 행렬과 관련된 주제로 선형대수학과 관련이 깊습니다. 선형대수학에서 등장하는 행렬의 SVD 기법을 활용해서 데이터 분석에서는 어떻게 차원축소로 연결되는지 알아보고자 합니다. 1. Data는 벡터? Data는 행렬? 데이터는 각각의 행에 대해서 벡터로 볼 수 있습니다. 아개 그림과 같이 1개의 행은 1개의 Sample로 볼 수 있습니다. Sample 여러 개를 모아놓은 데이터는 행렬(Matrix)로 이해할 수 있습니다. 그래서 데이터 분석 차원에서 SVD는 데이터를 행렬(Matrix)로 보고, Matrix의 Feature를 어떻게 추출할 것인가?와 관련이 있습니다. S.. 빅데이터/통계노트 2022. 2. 24.
LDA Linear Discriminant Analysis [빅공남! 통계 같이해요] LDA Linear Discriminant Analysis 선형판별분석 차원축소 기법 공부를 주제로 오늘 포스팅을 준비했습니다. 지난 포스팅에서 공부했던 PCA(Principle Compnent Analysis) 주성분분석과 Linear Projection한다는 점에서는 비슷한 방법이라고 할 수 있습니다. 하지만 두 기법은 축(Axis)를 다른 방법으로 잡아간다는 점에서 다른 차원 축소 기법입니다. 그래서 오늘 포스팅에서는 LDA에 대해서 알아보고 어떤 차이점이 있는지 알아보도록 합니다. 유튜브 영상은 포스팅 맨 하단에 첨부하도록 하겠습니다. 1. LDA(Linear Discriminant Analysis)란? LDA 선형판별분석은 단어 그래도 LInear하게 Discriminant 판별하는 분석법입니다.. 빅데이터/통계노트 2022. 2. 14.
Scree Plot PCA Eigenvalue Explained Ratio [빅공남! 통계 같이해요 ] Scree Plot PCA Principle Analysis Explained Ratio Eigenvalue Covariance Marix 차원축소 공부에 도움되는 내용을 다루고 있습니다. 오늘 포스팅에서는 Scree Plot에 대해서 정리를 해보고자합니다. Scree Plot은 PCA 주성분분석에서 고유값의 비율(Explained Ratio)를 차트로 시각화한 것입니다. 먼저 오늘 포스팅을 공부하기 앞서 빅공남 통계 26번째 영상에서 PCA 기법에 관한 내용들을 공부하고 Scree Plot을 보시면 도움이 되실 것입니다. 지난 포스팅 링크 먼저 첨부하도록 하겠습니다. PCA Principle Component Analysis 주성분분석 [빅공남! 통계 같이해요] PCA(Principle Componen.. 빅데이터/통계노트 2022. 2. 9.
PCA Principle Component Analysis 주성분분석 [빅공남! 통계 같이해요] PCA(Principle Component Analysis) 주성분 분석은 차원축소 기법 중 중요한 개념중에 하나입니다. 차원 축소(Dimensional Reduction)는 정사영(Projection)을 통해서 줄일 수 있는데 오늘 포스팅에서는 이 기법의 시각적인 이해화 수식을 100% 정리하지는 않지만 직관적인 의미 정도를 전달하고자 합니다. 먼저 빅공남 통계 23번째 영상에서는 2차원을 1차원으로 축소하는 정사영(Projection)에 대해서 공부했었습니다. 지난 포스팅 링크 먼저 첨부하겠습니다. 정사영 Projection 2d to 1d 2차원 1차원 차원축소 [빅공남! 통계 같이해요] 정사영 Projection 2차원 1차원 차원축소 개념 등에서 중요한 내용 중에 하나입니다. 빅데이터 분석에서 .. 빅데이터/통계노트 2022. 2. 5.
Feature Selection Feature Extraction 차원축소 PCA LDA t-SNE SVD [빅공남! 통계 같이해요] Feature Selection Feature Extraction 변수 선택 변수 추출 무슨 차이가 있을까? 차원 방법은 크게 변수 선택과 변수 추출로 나누어서 생각해볼 수 있습니다. 오늘 포스팅에서는 두 차이점이 무엇인지 알아보고 각각의 기법이 어떤 것들이 있는지 흐름만 잡는 포스팅과 유튜브 영상을 준비했습니다. 관련 링크는 포스팅 하단에 첨부하도록 하겠습니다. 1. 변수 선택 vs 변수 추출 (Feature Selection vs Extraction) 1) 변수 선택 : n개의 변수중에서 부분적으로 몇개를 사용할지 선택함. 2) 변수 추출 : n개의 변수 중에서 원본 데이터를 설명하면서 적은 개수로 new Feature 생성하고 new Feature의 Linear/Nonliear한 결합으로 만든 공간.. 빅데이터/통계노트 2022. 1. 29.
Vector Inner Product Dot Product 벡터 내적 선형대수 [빅공남! 통계 같이해요] Vector dot product inner product 벡터 내적 개념은 빅데이터 공부에서 중요한 개념 중에 하나입니다. 빅데이터 공부에서 차원축소 기법 중에서 PCA 주성분분석을 공부하다보면 수직으로 축을 잡아간다는 개념이 등장합니다. 고차원 공간에서 수직의 의미를 이해하려면 먼저 내적의 의미와 계산방법을 이해하고 있어야만합니다. 그래서 오늘 포스팅에서는 내적과 수직의 개념에 대해서 정리를 해보고자합니다. 유튜브 공부영상 링크는 포스팅 하단에 첨부하도록 하겠습니다. 벡터의 내적을 요약하면 2가지로 설명할 수 있습니다. 1) 벡터의 크기 2) 벡터의 각도 (코사인) 그래서 위의 개념을 설명하기 위해서 아래 3가지 관점에서 이해하고자합니다. 1) 벡터의 크기 2) 벡터의 내적 3) 벡터의 수직 1. 벡.. 빅데이터/통계노트 2022. 1. 27.
정사영 Projection 2d to 1d 2차원 1차원 차원축소 [빅공남! 통계 같이해요] 정사영 Projection 2차원 1차원 차원축소 개념 등에서 중요한 내용 중에 하나입니다. 빅데이터 분석에서 차원을 축소한다는 개념에서 벡터의 정사영 Projection 개념을 이해하면 도움이 됩니다. 2차원에서 1차원으로 정사영 시키는 것을 시각화 해서 영상을 준비해보았습니다. 2차원을 1차원으로 정사영(Projection)시키는 내용을 준비하고자, 파이썬 코딩 실습을 해보았습니다. 구글 코랩에서 파이썬 코딩실습을 했고, 결국 파이썬 코딩으로 직선을 360도 회전시키면서 정사영 하는 내용을 성공하였습니다. 각도를 바꿔가면서 아래 그림을 만들어 냈습니다. 1. 정사영(Projection)이란? 어떤 벡터u를 v벡터로 프로젝션 시킨다는 것은 수직으로 빛의 그림자를 만들어서 v젝터에 평행한 벡터로 만드는 .. 빅데이터/통계노트 2022. 1. 25.
Dimension Reduction 차원 축소 이유 Why? [빅공남! 통계 같이해요] 차원축소 Demension Reduction 데이터 분석 왜 하는가? 빅데이터 딥러닝 머신러닝 등에서 중요한 개념중에 하나입니다. 차원축소를 왜 해야하는지?를 3가지 관점에서 정리를 해보고자 합니다. 차원의 저주 Curse of Dimension 이라는 개념도 등장하게 됩니다. 관련 유튜브 동영상 링크는 포스팅 맨 하단에 첨부하도록 하겠습니다. 1. 차원(Dimension) 축소(Reduction)? 1) 차원(Dimension)이란? 데이터 분석에 사용되는 변수의 개수 2) 차원(Dimension)축소 차원을 줄인다? ☞ 사용되는 변수의 개수를 줄인다. 차원 축소의 개념은 결국 변수의 숫자를 줄이는 것입니다. 하지만 변수의 개수를 줄인다면 데이터 정보의 손실은 감수해야하는 부분입니다. 아래 그림처럼 5.. 빅데이터/통계노트 2022. 1. 24.
차원축소 변수 독립 종속 dependent independent 선형대수 Linear Algebra [빅공남! 통계 같이해요] 차원축소 변수 독립 종속 dependent independent 개념을 수학적으로 이해를 하면 도움이 됩니다. 바로 선형대수(Linear Algebra)의 독립과 종속의 개념을 도입하면 쉽게 이해할 수 있습니다/ 그래서 데이터 분석에서 차원 축소 기법을 공부하기 앞서, 오늘 포스팅 및 유튜브 영상링크를 보시면 도움이 될 수 있습니다. 유튜브 영상은 포스팅 맨 아래 첨부하겠습니다. 오늘 내용을 이해하기 위해서는 지난 포스팅을 미리 공부하고 오면 도움이 됩니다. Vector Linear Combination 선형대수 선형결합 일차결합 [빅공남! 통계 같이 공부해요] Vector Linear Combination 선형결합 일차결합 개념은 차원을 이해하기 위한 중요한 개념중에 하나입니다. 선형대수(Linear .. 빅데이터/통계노트 2022. 1. 16.
linear Independent dependent 선형대수 독립 종속 [빅공남! 통계 같이 공부해요] Vector Linear dependent independent 벡터의 독립과 종속 개념은 차원을 이해하기 위한 중요한 개념중에 하나입니다. 선형대수(Linear Algebra)에 등장하는 독립(Independent)와 종속(dependent)개념을 잘 정리하면 차원과 좌표에 대한 시야를 넓혀갈 수 있습니다. 그래서 데이터 분석에서 차원 축소개념인 PCA 기법 등을 이해하기 앞서 오늘 포스팅과 맨 아래 링크에 있는 유튜브 영상을 보면서 공부를 하면 도움이 될 수 있습니다. 지난 포스팅에서 정리했던 선형결합(Linear Combination 내용을 먼저 공부하고 오늘 포스팅을 이해하는데 도움이 됩니다. 먼저 지난 포스팅 링크부터 첨부하겠습니다. Vector Linear Combination 선형대수 선형결.. 빅데이터/통계노트 2022. 1. 14.
Vector Linear Combination 선형대수 선형결합 일차결합 [빅공남! 통계 같이 공부해요] Vector Linear Combination 선형결합 일차결합 개념은 차원을 이해하기 위한 중요한 개념중에 하나입니다. 선형대수(Linear Algebra)에 등장하는 Linear Combination 개념을 오늘 포스팅 주제로 선정했습니다. 데이터 분석에서 차원 축소 개념 기법중 PCA 기법 등을 이해하기 앞서, Linear Combinatio으로 만들수 있는 Vector Space에 대해서 공부하면 도움이 되겠다는 생각을 하게 되었습니다. 오늘 공부와 관련된 유튜브 영상 링크는 포스팅 맨 아래 첨부하겠습니다. 차원을 축소한다는 개념은 어떻게 이해할 수 있을까오? 오늘은 벡터 관점에서 먼저 선형결합(Linear Combination)을 시각적으로 2차원, 3차원해서 이해해보고자 합니다. 아래 그림과 .. 빅데이터/통계노트 2022. 1. 12.
Data = Vector 데이터는 벡터로 표현? [빅공남 통계 같이 공부해요] Vector 벡터로 Data를 표현할 수 있다? 빅데이터 머신러닝, 딥러닝 등을 공부하기 위해서는 Data는 벡터로 표현된다는 것이 중요합니다. 이는 선형대수 Linear Algebra와 관련이 있습니다. 데이터 분석에서 특히 차원축소 개념을 이해하기 위해서는 행렬(Matrix), 벡터(Vector), 베이시스(Basis), 선형(Linear) 등의 내용을 이해하고 있으면 도움이 됩니다. 빅데이터 분석기사 2과목 데이터 탐색에 나오는 목차는 다음과 같습니다. 목차의 분석변수 처리에 보면 차원축소라는 단어가 등장하는 것을 확인 할 수 있습니다. 차원축소 기법인 주성분분석(PCA)기법 등을 이해하기 위한 오늘 포스팅은 바로 데이터가 벡터라는 것입니다. 1. 벡터(Vector)는 좌표로 나타낼 수 있다? 벡터.. 빅데이터/통계노트 2022. 1. 8.
Vector Dimension 벡터와 차원 [빅공남 통계 같이 공부해요] 빅데이터 분석기사 차원축소 주제를 공부하다보면 PCA(주성분 분석) 기법이 등장합니다. 차원축소를 공부하려면 먼저 차원이 무엇인가? 이해해야하고 차원을 이해하려면 벡터(Vector) 공간에 대한 개념을 이해하고 있으면 도움이 됩니다. 오늘 포스팅에서는 차원축소 개념에 대해서 정리를 해보고자 합니다. 아래 빅분기 2과목 목차에서 차원축소에 관한 소주제를 찾아 볼 수 있습니다. 1. 좌표평면(2차원) Grid? 먼저 벡터의 개념을 표현하기 앞서 2차원에서 좌표계 그림을 시각화 해보았습니다. 중고등학교 때 2차원 좌표계는 수직이되는 x축, y축으로 배우고 익숙할 것입니다. 하지만 위의 그림을 보면 좌표축이 꼭 수직일 필요가 있을까? 라는 질문에서부터 벡터의 개념과 기저(Basis)개념 그리고 좌표(Grid) .. 빅데이터/통계노트 2022. 1. 6.
다중공선성 MultiCollinearity 이란 무엇인가??? [빅공남! 통계 같이 공부해요] 다중공선성 Multi-Collinearity란 무엇인가? 다중공선성은 회귀분석 그리고 빅데이터 분석기사 필기 2과목 빅데이터 탐색에서 이해해야하는 중요한 개념 중에 하나입니다. 아래 그림과 같이 분석변수 처리에서 차원축소의 개념이 등장합니다. 특히 선형대수의 차원축소 기법에 대해서 공부하다보면 주성분분석(PCA)라는 기법이 등장하기도 합니다. 대학교 수학인 선형대수학의 행렬과 차원에 대한 이해가 있어야 쉽게 이해할 수 있습니다. 나아가, Eigen Value, Eigen Vector 처럼 고유값, 고유벡터가 무엇인지까지 수학적 개념이 필요합니다. 이에 앞서, 회귀분석에서의 다중공선성의 의미에 대해 이해하면 좋겠다는 생각이 들어서 오늘 포스팅을 준비하게 되었습니다. 유튜브 공부영상 링크는 포스팅 맨 아래 .. 빅데이터/통계노트 2021. 12. 31.
다중 선형 회귀분석 Multiple Linear Regression 이란 무엇인가??? [빅공남! 통계 같이 공부해요] 다중 선형 회귀분석 Multiple LInear Regression 은 빅데이터, 머신러닝, 통계 등에서 반드시 알아야할 개념중에 하나입니다. 지난 빅공남 통계 14번 포스팅에서 단순 선형회귀(Simple Linear Regression)을 주제로 정리 했었습니다. 오늘 다중 선형회귀 분석에 앞서, 지난 14번 포스팅 링크를 첨부하겠습니다. 다중 선형회귀 유트브 공부 영상은 포스팅 맨 아래에 첨부하겠습니다. 선형 회귀분석 기초 쌓기 Linear Regression 이란 무엇인가??? [빅공남! 통계 같이 공부해요] . 회귀분석(Regression) 이란 무엇인가?는 통계, 기초통계학, 빅데이터, 머신러닝 등에서 반드시 알아야할 기초 개념중에 하나입니다. 회귀분석(Regression)를 공부하려면 먼저 상.. 빅데이터/통계노트 2021. 12. 31.