분류 전체보기61 차원축소 변수 독립 종속 dependent independent 선형대수 Linear Algebra [빅공남! 통계 같이해요] 차원축소 변수 독립 종속 dependent independent 개념을 수학적으로 이해를 하면 도움이 됩니다. 바로 선형대수(Linear Algebra)의 독립과 종속의 개념을 도입하면 쉽게 이해할 수 있습니다/ 그래서 데이터 분석에서 차원 축소 기법을 공부하기 앞서, 오늘 포스팅 및 유튜브 영상링크를 보시면 도움이 될 수 있습니다. 유튜브 영상은 포스팅 맨 아래 첨부하겠습니다. 오늘 내용을 이해하기 위해서는 지난 포스팅을 미리 공부하고 오면 도움이 됩니다. Vector Linear Combination 선형대수 선형결합 일차결합 [빅공남! 통계 같이 공부해요] Vector Linear Combination 선형결합 일차결합 개념은 차원을 이해하기 위한 중요한 개념중에 하나입니다. 선형대수(Linear .. 빅데이터/통계노트 2022. 1. 16. 더보기 ›› linear Independent dependent 선형대수 독립 종속 [빅공남! 통계 같이 공부해요] Vector Linear dependent independent 벡터의 독립과 종속 개념은 차원을 이해하기 위한 중요한 개념중에 하나입니다. 선형대수(Linear Algebra)에 등장하는 독립(Independent)와 종속(dependent)개념을 잘 정리하면 차원과 좌표에 대한 시야를 넓혀갈 수 있습니다. 그래서 데이터 분석에서 차원 축소개념인 PCA 기법 등을 이해하기 앞서 오늘 포스팅과 맨 아래 링크에 있는 유튜브 영상을 보면서 공부를 하면 도움이 될 수 있습니다. 지난 포스팅에서 정리했던 선형결합(Linear Combination 내용을 먼저 공부하고 오늘 포스팅을 이해하는데 도움이 됩니다. 먼저 지난 포스팅 링크부터 첨부하겠습니다. Vector Linear Combination 선형대수 선형결.. 빅데이터/통계노트 2022. 1. 14. 더보기 ›› Vector Linear Combination 선형대수 선형결합 일차결합 [빅공남! 통계 같이 공부해요] Vector Linear Combination 선형결합 일차결합 개념은 차원을 이해하기 위한 중요한 개념중에 하나입니다. 선형대수(Linear Algebra)에 등장하는 Linear Combination 개념을 오늘 포스팅 주제로 선정했습니다. 데이터 분석에서 차원 축소 개념 기법중 PCA 기법 등을 이해하기 앞서, Linear Combinatio으로 만들수 있는 Vector Space에 대해서 공부하면 도움이 되겠다는 생각을 하게 되었습니다. 오늘 공부와 관련된 유튜브 영상 링크는 포스팅 맨 아래 첨부하겠습니다. 차원을 축소한다는 개념은 어떻게 이해할 수 있을까오? 오늘은 벡터 관점에서 먼저 선형결합(Linear Combination)을 시각적으로 2차원, 3차원해서 이해해보고자 합니다. 아래 그림과 .. 빅데이터/통계노트 2022. 1. 12. 더보기 ›› Data = Vector 데이터는 벡터로 표현? [빅공남 통계 같이 공부해요] Vector 벡터로 Data를 표현할 수 있다? 빅데이터 머신러닝, 딥러닝 등을 공부하기 위해서는 Data는 벡터로 표현된다는 것이 중요합니다. 이는 선형대수 Linear Algebra와 관련이 있습니다. 데이터 분석에서 특히 차원축소 개념을 이해하기 위해서는 행렬(Matrix), 벡터(Vector), 베이시스(Basis), 선형(Linear) 등의 내용을 이해하고 있으면 도움이 됩니다. 빅데이터 분석기사 2과목 데이터 탐색에 나오는 목차는 다음과 같습니다. 목차의 분석변수 처리에 보면 차원축소라는 단어가 등장하는 것을 확인 할 수 있습니다. 차원축소 기법인 주성분분석(PCA)기법 등을 이해하기 위한 오늘 포스팅은 바로 데이터가 벡터라는 것입니다. 1. 벡터(Vector)는 좌표로 나타낼 수 있다? 벡터.. 빅데이터/통계노트 2022. 1. 8. 더보기 ›› Vector Dimension 벡터와 차원 [빅공남 통계 같이 공부해요] 빅데이터 분석기사 차원축소 주제를 공부하다보면 PCA(주성분 분석) 기법이 등장합니다. 차원축소를 공부하려면 먼저 차원이 무엇인가? 이해해야하고 차원을 이해하려면 벡터(Vector) 공간에 대한 개념을 이해하고 있으면 도움이 됩니다. 오늘 포스팅에서는 차원축소 개념에 대해서 정리를 해보고자 합니다. 아래 빅분기 2과목 목차에서 차원축소에 관한 소주제를 찾아 볼 수 있습니다. 1. 좌표평면(2차원) Grid? 먼저 벡터의 개념을 표현하기 앞서 2차원에서 좌표계 그림을 시각화 해보았습니다. 중고등학교 때 2차원 좌표계는 수직이되는 x축, y축으로 배우고 익숙할 것입니다. 하지만 위의 그림을 보면 좌표축이 꼭 수직일 필요가 있을까? 라는 질문에서부터 벡터의 개념과 기저(Basis)개념 그리고 좌표(Grid) .. 빅데이터/통계노트 2022. 1. 6. 더보기 ›› 다중공선성 MultiCollinearity 이란 무엇인가??? [빅공남! 통계 같이 공부해요] 다중공선성 Multi-Collinearity란 무엇인가? 다중공선성은 회귀분석 그리고 빅데이터 분석기사 필기 2과목 빅데이터 탐색에서 이해해야하는 중요한 개념 중에 하나입니다. 아래 그림과 같이 분석변수 처리에서 차원축소의 개념이 등장합니다. 특히 선형대수의 차원축소 기법에 대해서 공부하다보면 주성분분석(PCA)라는 기법이 등장하기도 합니다. 대학교 수학인 선형대수학의 행렬과 차원에 대한 이해가 있어야 쉽게 이해할 수 있습니다. 나아가, Eigen Value, Eigen Vector 처럼 고유값, 고유벡터가 무엇인지까지 수학적 개념이 필요합니다. 이에 앞서, 회귀분석에서의 다중공선성의 의미에 대해 이해하면 좋겠다는 생각이 들어서 오늘 포스팅을 준비하게 되었습니다. 유튜브 공부영상 링크는 포스팅 맨 아래 .. 빅데이터/통계노트 2021. 12. 31. 더보기 ›› 다중 선형 회귀분석 Multiple Linear Regression 이란 무엇인가??? [빅공남! 통계 같이 공부해요] 다중 선형 회귀분석 Multiple LInear Regression 은 빅데이터, 머신러닝, 통계 등에서 반드시 알아야할 개념중에 하나입니다. 지난 빅공남 통계 14번 포스팅에서 단순 선형회귀(Simple Linear Regression)을 주제로 정리 했었습니다. 오늘 다중 선형회귀 분석에 앞서, 지난 14번 포스팅 링크를 첨부하겠습니다. 다중 선형회귀 유트브 공부 영상은 포스팅 맨 아래에 첨부하겠습니다. 선형 회귀분석 기초 쌓기 Linear Regression 이란 무엇인가??? [빅공남! 통계 같이 공부해요] . 회귀분석(Regression) 이란 무엇인가?는 통계, 기초통계학, 빅데이터, 머신러닝 등에서 반드시 알아야할 기초 개념중에 하나입니다. 회귀분석(Regression)를 공부하려면 먼저 상.. 빅데이터/통계노트 2021. 12. 31. 더보기 ›› 선형 회귀분석 기초 쌓기 Linear Regression 이란 무엇인가??? [빅공남! 통계 같이 공부해요] . 회귀분석(Regression) 이란 무엇인가?는 통계, 기초통계학, 빅데이터, 머신러닝 등에서 반드시 알아야할 기초 개념중에 하나입니다. 회귀분석(Regression)를 공부하려면 먼저 상관계수의 개념을 이해해야기 때문에 지난 포스팅 빅공남 13번 포스팅에서는 상관계수를 주제로 영상을 만들었습니다. 오늘 포스팅을 위해 지난 포스팅 링크 먼저 추가하겠습니다. 유튜브 영상은 포스팅 맨 아래에 있습니다. 상관계수 Correlation 이란 무엇인가??? [빅공남! 통계 같이 공부해요] 상관계수 Correlation 이란 무엇인가?는 통계, 기초통계학, 빅데이터, 머신러닝 등에서 반드시 알아야할 기초 개념중에 하나입니다. 상관계수를 공부하려면 먼저 공분산의 개념을 이해해야기 때문 seeyapangpang.t.. 빅데이터/통계노트 2021. 12. 31. 더보기 ›› 상관계수 Correlation 이란 무엇인가??? [빅공남! 통계 같이 공부해요] 상관계수 Correlation 이란 무엇인가?는 통계, 기초통계학, 빅데이터, 머신러닝 등에서 반드시 알아야할 기초 개념중에 하나입니다. 상관계수를 공부하려면 먼저 공분산의 개념을 이해해야기 때문에 지난 포스팅 빅공남 #12에서는 공분산을 주제로 영상을 만들었습니다. 오늘 포스팅을 위해 지난 포스팅 링크 먼저 추가하겠습니다. 공분산 Covariance 란 무엇인가??? [빅공남! 통계 같이 공부해요] 공분산(Covariance)란 무엇인가?는 통계 및 기초통계학 공부를 하는데 있어서 중요한 개념중에 하나 입니다. 빅데이터 분석기사 2과목 빅데이터 탐색에서 중요한 주제인 상관계수를 공부하기 앞서 seeyapangpang.tistory.com 상관계수(Correlation)은 결국 회귀분석(Regressio.. 빅데이터/통계노트 2021. 12. 31. 더보기 ›› 공분산 Covariance 란 무엇인가??? [빅공남! 통계 같이 공부해요] 공분산(Covariance)란 무엇인가?는 통계 및 기초통계학 공부를 하는데 있어서 중요한 개념중에 하나 입니다. 빅데이터 분석기사 2과목 빅데이터 탐색에서 중요한 주제인 상관계수를 공부하기 앞서 공분산 Covariance의 개념에 대해서 정리하는 포스팅을 준비했습니다. 상관계수를 공부하다보면 공분산(covariance)라는 말이 나옵니다. 상관계수는 그리고 두 변수간의 직선관계, 1차식의 계수를 찾아가는 과정이라고 하는데요... 하지만 다음과 같이 수식을 보면 머리가 아파집니다. 상관계수는 -1에서 1사이의 값을 가지고 직선성을 나타낸다고 하는데... 수식을 살펴보면 상관계수 식에는 공분산(Covariance) 개념이 들어갑니다. 수식을 파고들기보다는 직관적으로 어떤 의미를 가지는가?에 대해서 포커스를.. 빅데이터/통계노트 2021. 12. 31. 더보기 ›› 변수선택(필터/랩퍼/임베디드) [빅공남! 통계 같이 공부해요] 필터 랩퍼 임베디드 3가지 기법 분석 변수 처리에 관해서 오늘 포스팅을 준비했습니다. 2과목 빅데이터 탐색에서 데이터 전처리 두번째 주제가 분석 변수 처리입니다. 위의 주제를 공부하기 앞서, Feature와 Label의 차이에 관한 지난 포스팅을 참고하고 오늘 포스팅을 보면 도움이 됩니다. 지난 시간에는 원인 변수인 Feature와 결과 변수인 Target 또는 Label에 대해서 알아보았고 오늘은 변수를 선택하는 방법 3가지에 대해서 정리해보고자 합니다, 1. 변수 선택 (필터/랩퍼/임베디드?) 위의 그림을 보면 3가지 기법을 간단하게 쉽게 비교해볼 수 있습니다. 1) 필터(Filter) 기법 Ranking ☞ Top? 2) 랩퍼(Wrapper) 기법 Repetation? ☞ Optimal? 3) 임베.. 빅데이터/통계노트 2021. 12. 31. 더보기 ›› 변수 Feature vs Target, Feature Engineering [빅공남! 통계 같이 공부해요] 빅데이터 분석기사 빅분기 변수 Feature Label Feature Engineering 는 빅데이터 탐색 2과목에서 하나의 주제와 관련이 있습니다. 데이터 검정사이트에서 2과목 빅데이터 탐색에서 데이터 전처리 두번째 주제가 분석 변수 처리입니다. 데이터 전처리 과목은 크게 데이터 정제와 분석 변수처리로 나눌 수 있습니다. 분석 변수처리의 소주제로는 다음과 같습니다. 1) 변수 선택 (Feature Selection) 2) 차원 축소 (Dimension Reduction) 3) 파생 변수 (Derived Variable) 4) 변수 변환 (Variable Transformation) 5) 불균형 데이터 처리 (Under/Over Sampling) 위의 주제를 공부하기 앞서, Feature와 Label의.. 빅데이터/통계노트 2021. 12. 30. 더보기 ›› 이상값 이상치 Outlier 탐지 [빅공남! 통계 같이 공부해요] 빅데이터 분석기사 빅분기 이상값 이상치 Outlier 아웃라이어 탐지는 데이터 분석에서 중요한 이슈 중에 하나입니다. 데이터 검정 사이트에서 2과목 빅데이터 탐색의 주제를 살펴보면 이상값 처리라라는 주제가 있는 것을 확인 할 수 있습니다. 그래서 오늘 포스팅에서는 이상값, 이상치(Outlier)를 탐색을 왜 해야하는가?에 대해서 정리를 해보고 내용을 정리해보도록 하겠습니다. 오늘 공부에 도움되는 유튜브 영상 링크는 맨 아래 첨부하겠습니다. 1. 이상치(Outlier) 탐색해야 하는 이유? 데이터들의 분포를 통해서 추세선을 찾아 내는 방법을 회귀분석(Linear Regression)이라고 합니다. 그림의 왼쪽 처럼 직선으로 우상향하는 추세가 있는데 이상치(Outlier)가 있다면 추세선은 좀더 아래로 내려.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 결측값 결측치 종류 및 대체 (MCAR MAR MNAR) [빅공남! 통계 같이 공부해요] 결측값 결측치 (Missing Value) 유형 무엇인지, 그리고 결측값을 어떻게 대체할 것인가는 통계, 빅데이터를 다루는 입장에서 중요한 문제중에 하나입니다. 지난 포스팅에서는 결측치 vs 이상치 또는 결측값 vs 이상값의 차이에 대해서 정리를 해보았습니다. 오늘은 지난 포스팅에 이어서 결측값이 종류가 무엇이 있는지? 그리고 대체할 수 있는 방법이 무엇인지 알아보는 포스팅을 시작하려고 합니다. 데이터 검정 사이트에서 빅데이터 분석기사 2과목 빅데이터 탐색 목차를 먼저 살펴 보겠습니다. 데이터 전처리, 데이터 정제, 결측값 처리, 이상값처리, 변수 변환, 불균형 데이터 처리가 2-1과목 굵직한 키워드로 등장을 합니다. 하나의 굵직한 소주제인 결측값 처리에 대해서 오늘 같이 공부하도록 하겠습니다. 1. 결.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 결측값 vs 이상값 Missing Value vs Outlier 이상치 vs 결측치 [빅공남! 통계같이 공부해요] 결측값 이상값 Missing Value Outlier 이상치 결측치 빅데이터 분석기사 필기 2과목 통계의 전처리 단원에서는 3가지 큰 주제가 있습니다. 데이터 검정사이트에서 빅데이터 분석기사 시험 주제에 대해서 확인 할 수 있습니다. [빅데이터 분석기사 2과목 전처리] 1) 데이터 정제 2) 데이터 결측값 처리 3) 데이터 이상값 처리 대표사진 삭제 사진 설명을 입력하세요. 오늘은 데이터 전처리의 주제 제목인 결측값 처리와 이상값처리 공부에 앞어서 결측값 vs 이상값이 어떤 값들인지에 대해서 정리하는 글을 준비했습니다. 1. 결측치(Missing Value)란?? 결측치란 값이 비어 있는 데이터를 의미함. 아예 공란으도 되어 있거나,NA(Not Available), NaN(Not a Number), Nu.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› Preprocessing vs EDA 전처리 vs 탐색적 데이터 분석 [빅공남! 통계같이 공부해요] . 전처리(Preproecessing) vs 탐색적 데이터 분석(EDA) 빅데이터 분석기사 필기 2과목 공부에 앞서 두 개념에 대해서 이해하는 포스팅을 준비했습니다. 데이터 검정에서 빅데이터분석기사 목차에 대해서 확인할 수 있습니다. 2과목 빅데이터 탐색의 주제는 크게 3가지로 나뉩니다. [빅데이터 분석기사 2과목 주제] 1) 전처리 2) 데이터탐색 3) 통계기법의 이해 3가지 굵직한 주제에서 알 수 있듯이 전처리, 데이터 탐색이라는 단어가 등장합니다. 갑자기 탐색? 이라는 단어가 왜 등장했는지? 전처리가 무엇인지? 에 관한 궁금증이 들 수 있습니다. 전처리(Preprocessing) 과 탐색적 데이터 분석(EDA) 비슷한 과정으로 혼용해서 쓰는 경우도 있는데 오늘 포스팅에서 두 가지가 어떤 과정인지 이.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 통계 Box Plot Stem-Leaf 시각적 데이터 탐색 차트 [빅공남! 통계 같이 공부해요] . Box Plot Stem Leaf 시각적 데이터 탐색 빅데이터 분석기사 필기 2과목 빅데이터 탐색에서는 시각적 데이터 탐색이라는 주제가 등장합니다. 데이터 검정사이트의 빅데이터 분석기사 시험 범위를 보면 확인할 수 있습니다. 대표사진 삭제 출처 : 데이터검정 빅데이터 분석기사 출제범위 기술통계 vs 추론통계 [빅공남! 통계 같이 공부해요] 기술통계 추론통계 빅데이터 분석기사 필기 2과목 빅데이터 탐색에선는 통계에 관련된 내용들이 많이 등장... 기술통계 vs 추론통계 차이점에 대해서 정리를 했었고 오늘의 주제인 시각적 데이터 탐색은 기술통계 영역이라고 볼 수 있습니다. 오늘 포스팅에서는 시각적 데이터 탐색인 차트 종류에 대해서 살펴보고 특히 Box Plot, Stem-Leaf 차트에 대해서 알아보고자.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 왜도 Skew 첨도 Kurtosis (분포의 모양 기초통계량) [빅공남! 통계같이 공부해요] . 왜도 Skew 첨도 Kurtosis는 분포의 모양을 나타내는 기초통계량 값입니다. 기초통계량 3가지중 마지막 내용으로 좌우 비대칭성, 뾰족한 정도를 나타내는 값들에 대해서 정리해보고자 합니다. 1. 기초통계량 종류 1) 중심경향 기초통계량 (Central Tendency) 2) 산포도(Degree Dispersion) 3) 분포의 형태 (Shape of Distribution) 2. 분포의 형태(Shape of Distribution) 기초통계량 2번쨰인 산포도에서는 주로 분산으로 퍼짐정도를 측정하였습니다. 분산 = 편차의 제곱의 평균이므로 항상 제곱으로 숫자를 양수로 만들게 됩니다. 때문에 평균에 비해서 오른쪽에 쏠려있는지, 왼쪽에 쏠려있는지에 대해서 좌우 비대칭성을 나타낼 수 없습니다. 또한 .. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 퍼짐정도 분산 표준편차 사분위편차(IQR) 변동계수 산포도 기초통계량(Degree of Dispersion) [빅공남! 통계같이 공부해요] 기초통계량은 크게 3가지로 분류할 수 있습니다. 오늘은 기초통계량 3가지중 2번째인 산포도(Degree of Dispersion)에 관한 주제입니다. 1. 기초통계량 종류 1) 중심경향 기초통계량 (Central Tendency) 2) 산포도(Degree Dispersion) 3) 분포의 형태 (Shape of Distribution) 2. 산포도(Degree of Dispersion) 데이터의 중앙으로부터 흔터진 정도를 측정하는 기술통계량 1) 분산(Variance) 편차의 제곱의 평균 2) 범위(Range) 데이터 구간의 길이 (최대값 - 최소값) 3) 사분위편차(Inter Quartile Range) Q3 - Q1 (오름차순 25%, 50%, 75%,100%) Q3 : 3분위수 (75% 숫자) Q1.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› Mean Median Mode 중심경향 기초통계량(Central Tendency) [빅공남! 통계 같이 공부해요] 사진 설명을 입력하세요. 기술통계(Descriptive Staticstics)는 지난 포스팅에서 정리했듯이, 데이터를 요약하는 값들로 표현하는 것을 의미하고 이러한 데이터를 기초통계량이라고 합니다. 기초통계량은 크게 3가지로 분류할 수 있습니다. 1. 기초통계량 분류 1) 중심경향 기초통계량 (Central Tendency) 2) 산포도(Degree Dispersion) 3) 분포의 형태 (Shape of Distribution) 2. 중심경향 기초통계량 데이터의 중앙을 대표하는 값들은 아래와 같이 3가지 값으로 계산할 수 있습니다. 1) 평균 (Mean) 산술평균, 기하평균, 조화평균 2) 중앙값 (Median) 데이터를 오름차순으로 정렬했을 때, 가장 중앙에 위치한 값 3) 최빈값 (Mode) 가장 .. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 이전 1 2 3 4 다음