빅데이터분석기사16 MinMax Standard Robust Scaler 변수 변환 [빅공남! 통계 같이해요] MinMax Scaler Standard Scaler Robust Scaler 빅데이터 분석기사 빅분기 통계 2과목 소주제 변수변환에 대해서 공부를 정리하고자 합니다. 특히, 오늘 포스팅에서는 Scaler 종류 3가지에 대해서 포스팅과 유튜브 영상으로 정지를 하려고합니다. 먼저 변수변환에 대해서 알아보고, 각 Scaler의 이론적인 의미 그리고 파이썬 코딩실습 등으로 내용을 살펴보겠습니다. 유튜브 공부영상 링크는 포스팅 맨 하단에 첨부하겠습니다. 빅데이터 분석기사 목차를 다시 한번 살펴보고자 합니다. 목차를 보면 변수변환이라는 소주제를 확인할 수 있습니다. 데이터 검정에서 공개된 빅분기 작업형 예제 1번을 보면 다음과 같습니다. 오늘 포스팅은 Min-Max Scaler와 같은 변수변환이 어떤 의미인지에 .. 빅데이터/통계노트 2022. 3. 8. 더보기 ›› 파생변수 요약변수 Derived Variable Summary Variable [빅공남! 통계 같이해요] 파생변수 요약변수 빅데이터 분석기사 2과목 주제 중에 하나인 파생변수에 대해서 정리해보고자 합니다. 지난 포스팅까지는 차원축소에 대해서 여러 포스팅으로 나누어서 정리를 했었습니다. 오늘은 주로 파생변수와 요약변수의 차이점과 특징에 대해서 알아보고자 합니다. 데이터 검정 사이트에 가면 빅데이터 분석기사 필기 시험에 대한 설명을 볼 수 있습니다. 아래 그림은 데이터 검정 사이트에서 2과목 빅데이터 탐색의 소주제를 참조해서 가지고 왔습니다. 1. 데이터 마트(Data Mart)? 파생변수에 대해 공부하기 앞서 데이터 마트에 대해서 살펴보고자 합니다. 데이터 웨어하우스, 데이터 마트라는 저장공간이 있습니다. 데이터 웨어하우수(DW), 데이터 마트(DM)을 알아보고자 아래 그림을 보면서 이해해보고자 합니다. 수집.. 빅데이터/통계노트 2022. 3. 1. 더보기 ›› Dimension Reduction 차원 축소 이유 Why? [빅공남! 통계 같이해요] 차원축소 Demension Reduction 데이터 분석 왜 하는가? 빅데이터 딥러닝 머신러닝 등에서 중요한 개념중에 하나입니다. 차원축소를 왜 해야하는지?를 3가지 관점에서 정리를 해보고자 합니다. 차원의 저주 Curse of Dimension 이라는 개념도 등장하게 됩니다. 관련 유튜브 동영상 링크는 포스팅 맨 하단에 첨부하도록 하겠습니다. 1. 차원(Dimension) 축소(Reduction)? 1) 차원(Dimension)이란? 데이터 분석에 사용되는 변수의 개수 2) 차원(Dimension)축소 차원을 줄인다? ☞ 사용되는 변수의 개수를 줄인다. 차원 축소의 개념은 결국 변수의 숫자를 줄이는 것입니다. 하지만 변수의 개수를 줄인다면 데이터 정보의 손실은 감수해야하는 부분입니다. 아래 그림처럼 5.. 빅데이터/통계노트 2022. 1. 24. 더보기 ›› Data = Vector 데이터는 벡터로 표현? [빅공남 통계 같이 공부해요] Vector 벡터로 Data를 표현할 수 있다? 빅데이터 머신러닝, 딥러닝 등을 공부하기 위해서는 Data는 벡터로 표현된다는 것이 중요합니다. 이는 선형대수 Linear Algebra와 관련이 있습니다. 데이터 분석에서 특히 차원축소 개념을 이해하기 위해서는 행렬(Matrix), 벡터(Vector), 베이시스(Basis), 선형(Linear) 등의 내용을 이해하고 있으면 도움이 됩니다. 빅데이터 분석기사 2과목 데이터 탐색에 나오는 목차는 다음과 같습니다. 목차의 분석변수 처리에 보면 차원축소라는 단어가 등장하는 것을 확인 할 수 있습니다. 차원축소 기법인 주성분분석(PCA)기법 등을 이해하기 위한 오늘 포스팅은 바로 데이터가 벡터라는 것입니다. 1. 벡터(Vector)는 좌표로 나타낼 수 있다? 벡터.. 빅데이터/통계노트 2022. 1. 8. 더보기 ›› 다중공선성 MultiCollinearity 이란 무엇인가??? [빅공남! 통계 같이 공부해요] 다중공선성 Multi-Collinearity란 무엇인가? 다중공선성은 회귀분석 그리고 빅데이터 분석기사 필기 2과목 빅데이터 탐색에서 이해해야하는 중요한 개념 중에 하나입니다. 아래 그림과 같이 분석변수 처리에서 차원축소의 개념이 등장합니다. 특히 선형대수의 차원축소 기법에 대해서 공부하다보면 주성분분석(PCA)라는 기법이 등장하기도 합니다. 대학교 수학인 선형대수학의 행렬과 차원에 대한 이해가 있어야 쉽게 이해할 수 있습니다. 나아가, Eigen Value, Eigen Vector 처럼 고유값, 고유벡터가 무엇인지까지 수학적 개념이 필요합니다. 이에 앞서, 회귀분석에서의 다중공선성의 의미에 대해 이해하면 좋겠다는 생각이 들어서 오늘 포스팅을 준비하게 되었습니다. 유튜브 공부영상 링크는 포스팅 맨 아래 .. 빅데이터/통계노트 2021. 12. 31. 더보기 ›› 상관계수 Correlation 이란 무엇인가??? [빅공남! 통계 같이 공부해요] 상관계수 Correlation 이란 무엇인가?는 통계, 기초통계학, 빅데이터, 머신러닝 등에서 반드시 알아야할 기초 개념중에 하나입니다. 상관계수를 공부하려면 먼저 공분산의 개념을 이해해야기 때문에 지난 포스팅 빅공남 #12에서는 공분산을 주제로 영상을 만들었습니다. 오늘 포스팅을 위해 지난 포스팅 링크 먼저 추가하겠습니다. 공분산 Covariance 란 무엇인가??? [빅공남! 통계 같이 공부해요] 공분산(Covariance)란 무엇인가?는 통계 및 기초통계학 공부를 하는데 있어서 중요한 개념중에 하나 입니다. 빅데이터 분석기사 2과목 빅데이터 탐색에서 중요한 주제인 상관계수를 공부하기 앞서 seeyapangpang.tistory.com 상관계수(Correlation)은 결국 회귀분석(Regressio.. 빅데이터/통계노트 2021. 12. 31. 더보기 ›› 공분산 Covariance 란 무엇인가??? [빅공남! 통계 같이 공부해요] 공분산(Covariance)란 무엇인가?는 통계 및 기초통계학 공부를 하는데 있어서 중요한 개념중에 하나 입니다. 빅데이터 분석기사 2과목 빅데이터 탐색에서 중요한 주제인 상관계수를 공부하기 앞서 공분산 Covariance의 개념에 대해서 정리하는 포스팅을 준비했습니다. 상관계수를 공부하다보면 공분산(covariance)라는 말이 나옵니다. 상관계수는 그리고 두 변수간의 직선관계, 1차식의 계수를 찾아가는 과정이라고 하는데요... 하지만 다음과 같이 수식을 보면 머리가 아파집니다. 상관계수는 -1에서 1사이의 값을 가지고 직선성을 나타낸다고 하는데... 수식을 살펴보면 상관계수 식에는 공분산(Covariance) 개념이 들어갑니다. 수식을 파고들기보다는 직관적으로 어떤 의미를 가지는가?에 대해서 포커스를.. 빅데이터/통계노트 2021. 12. 31. 더보기 ›› 변수선택(필터/랩퍼/임베디드) [빅공남! 통계 같이 공부해요] 필터 랩퍼 임베디드 3가지 기법 분석 변수 처리에 관해서 오늘 포스팅을 준비했습니다. 2과목 빅데이터 탐색에서 데이터 전처리 두번째 주제가 분석 변수 처리입니다. 위의 주제를 공부하기 앞서, Feature와 Label의 차이에 관한 지난 포스팅을 참고하고 오늘 포스팅을 보면 도움이 됩니다. 지난 시간에는 원인 변수인 Feature와 결과 변수인 Target 또는 Label에 대해서 알아보았고 오늘은 변수를 선택하는 방법 3가지에 대해서 정리해보고자 합니다, 1. 변수 선택 (필터/랩퍼/임베디드?) 위의 그림을 보면 3가지 기법을 간단하게 쉽게 비교해볼 수 있습니다. 1) 필터(Filter) 기법 Ranking ☞ Top? 2) 랩퍼(Wrapper) 기법 Repetation? ☞ Optimal? 3) 임베.. 빅데이터/통계노트 2021. 12. 31. 더보기 ›› 변수 Feature vs Target, Feature Engineering [빅공남! 통계 같이 공부해요] 빅데이터 분석기사 빅분기 변수 Feature Label Feature Engineering 는 빅데이터 탐색 2과목에서 하나의 주제와 관련이 있습니다. 데이터 검정사이트에서 2과목 빅데이터 탐색에서 데이터 전처리 두번째 주제가 분석 변수 처리입니다. 데이터 전처리 과목은 크게 데이터 정제와 분석 변수처리로 나눌 수 있습니다. 분석 변수처리의 소주제로는 다음과 같습니다. 1) 변수 선택 (Feature Selection) 2) 차원 축소 (Dimension Reduction) 3) 파생 변수 (Derived Variable) 4) 변수 변환 (Variable Transformation) 5) 불균형 데이터 처리 (Under/Over Sampling) 위의 주제를 공부하기 앞서, Feature와 Label의.. 빅데이터/통계노트 2021. 12. 30. 더보기 ›› 이상값 이상치 Outlier 탐지 [빅공남! 통계 같이 공부해요] 빅데이터 분석기사 빅분기 이상값 이상치 Outlier 아웃라이어 탐지는 데이터 분석에서 중요한 이슈 중에 하나입니다. 데이터 검정 사이트에서 2과목 빅데이터 탐색의 주제를 살펴보면 이상값 처리라라는 주제가 있는 것을 확인 할 수 있습니다. 그래서 오늘 포스팅에서는 이상값, 이상치(Outlier)를 탐색을 왜 해야하는가?에 대해서 정리를 해보고 내용을 정리해보도록 하겠습니다. 오늘 공부에 도움되는 유튜브 영상 링크는 맨 아래 첨부하겠습니다. 1. 이상치(Outlier) 탐색해야 하는 이유? 데이터들의 분포를 통해서 추세선을 찾아 내는 방법을 회귀분석(Linear Regression)이라고 합니다. 그림의 왼쪽 처럼 직선으로 우상향하는 추세가 있는데 이상치(Outlier)가 있다면 추세선은 좀더 아래로 내려.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 결측값 결측치 종류 및 대체 (MCAR MAR MNAR) [빅공남! 통계 같이 공부해요] 결측값 결측치 (Missing Value) 유형 무엇인지, 그리고 결측값을 어떻게 대체할 것인가는 통계, 빅데이터를 다루는 입장에서 중요한 문제중에 하나입니다. 지난 포스팅에서는 결측치 vs 이상치 또는 결측값 vs 이상값의 차이에 대해서 정리를 해보았습니다. 오늘은 지난 포스팅에 이어서 결측값이 종류가 무엇이 있는지? 그리고 대체할 수 있는 방법이 무엇인지 알아보는 포스팅을 시작하려고 합니다. 데이터 검정 사이트에서 빅데이터 분석기사 2과목 빅데이터 탐색 목차를 먼저 살펴 보겠습니다. 데이터 전처리, 데이터 정제, 결측값 처리, 이상값처리, 변수 변환, 불균형 데이터 처리가 2-1과목 굵직한 키워드로 등장을 합니다. 하나의 굵직한 소주제인 결측값 처리에 대해서 오늘 같이 공부하도록 하겠습니다. 1. 결.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 결측값 vs 이상값 Missing Value vs Outlier 이상치 vs 결측치 [빅공남! 통계같이 공부해요] 결측값 이상값 Missing Value Outlier 이상치 결측치 빅데이터 분석기사 필기 2과목 통계의 전처리 단원에서는 3가지 큰 주제가 있습니다. 데이터 검정사이트에서 빅데이터 분석기사 시험 주제에 대해서 확인 할 수 있습니다. [빅데이터 분석기사 2과목 전처리] 1) 데이터 정제 2) 데이터 결측값 처리 3) 데이터 이상값 처리 대표사진 삭제 사진 설명을 입력하세요. 오늘은 데이터 전처리의 주제 제목인 결측값 처리와 이상값처리 공부에 앞어서 결측값 vs 이상값이 어떤 값들인지에 대해서 정리하는 글을 준비했습니다. 1. 결측치(Missing Value)란?? 결측치란 값이 비어 있는 데이터를 의미함. 아예 공란으도 되어 있거나,NA(Not Available), NaN(Not a Number), Nu.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 통계 Box Plot Stem-Leaf 시각적 데이터 탐색 차트 [빅공남! 통계 같이 공부해요] . Box Plot Stem Leaf 시각적 데이터 탐색 빅데이터 분석기사 필기 2과목 빅데이터 탐색에서는 시각적 데이터 탐색이라는 주제가 등장합니다. 데이터 검정사이트의 빅데이터 분석기사 시험 범위를 보면 확인할 수 있습니다. 대표사진 삭제 출처 : 데이터검정 빅데이터 분석기사 출제범위 기술통계 vs 추론통계 [빅공남! 통계 같이 공부해요] 기술통계 추론통계 빅데이터 분석기사 필기 2과목 빅데이터 탐색에선는 통계에 관련된 내용들이 많이 등장... 기술통계 vs 추론통계 차이점에 대해서 정리를 했었고 오늘의 주제인 시각적 데이터 탐색은 기술통계 영역이라고 볼 수 있습니다. 오늘 포스팅에서는 시각적 데이터 탐색인 차트 종류에 대해서 살펴보고 특히 Box Plot, Stem-Leaf 차트에 대해서 알아보고자.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 왜도 Skew 첨도 Kurtosis (분포의 모양 기초통계량) [빅공남! 통계같이 공부해요] . 왜도 Skew 첨도 Kurtosis는 분포의 모양을 나타내는 기초통계량 값입니다. 기초통계량 3가지중 마지막 내용으로 좌우 비대칭성, 뾰족한 정도를 나타내는 값들에 대해서 정리해보고자 합니다. 1. 기초통계량 종류 1) 중심경향 기초통계량 (Central Tendency) 2) 산포도(Degree Dispersion) 3) 분포의 형태 (Shape of Distribution) 2. 분포의 형태(Shape of Distribution) 기초통계량 2번쨰인 산포도에서는 주로 분산으로 퍼짐정도를 측정하였습니다. 분산 = 편차의 제곱의 평균이므로 항상 제곱으로 숫자를 양수로 만들게 됩니다. 때문에 평균에 비해서 오른쪽에 쏠려있는지, 왼쪽에 쏠려있는지에 대해서 좌우 비대칭성을 나타낼 수 없습니다. 또한 .. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 퍼짐정도 분산 표준편차 사분위편차(IQR) 변동계수 산포도 기초통계량(Degree of Dispersion) [빅공남! 통계같이 공부해요] 기초통계량은 크게 3가지로 분류할 수 있습니다. 오늘은 기초통계량 3가지중 2번째인 산포도(Degree of Dispersion)에 관한 주제입니다. 1. 기초통계량 종류 1) 중심경향 기초통계량 (Central Tendency) 2) 산포도(Degree Dispersion) 3) 분포의 형태 (Shape of Distribution) 2. 산포도(Degree of Dispersion) 데이터의 중앙으로부터 흔터진 정도를 측정하는 기술통계량 1) 분산(Variance) 편차의 제곱의 평균 2) 범위(Range) 데이터 구간의 길이 (최대값 - 최소값) 3) 사분위편차(Inter Quartile Range) Q3 - Q1 (오름차순 25%, 50%, 75%,100%) Q3 : 3분위수 (75% 숫자) Q1.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 기술통계 vs 추론통계 [빅공남 통계 같이 공부해요] 기술통계 추론통계 빅데이터 분석기사 필기 2과목 빅데이터 탐색에선는 통계에 관련된 내용들이 많이 등장합니다. 빅공남 통계노트에서는 통계 개념과 관련된 내용들을 공부하면서 정리해보고자 합니다. 오늘은 첫번째 시간으로 2-3 과목 통계기법을 큰 틀에서 보면 기초통계 vs 추론통계로 나눌 수 있습니다. 오늘은 먼저 기초통계와 추론통계가 무엇인지에 대해서 정리를 해보고자 합니다.먼저, 기초통계 vs 추론통계를 이해하기 위한 그림을 찾아보았습니다. . 출처 : https://learn.g2.com/inferential-analysis 출처 :https://sciencestruck.com/descriptive-vs-inferential-statistics 1. 기술통계란? 데이터를 묘사하고 요약하는 정보를 주는 통.. 빅데이터/통계노트 2021. 7. 21. 더보기 ›› 이전 1 다음