빅데이터34 선형 회귀분석 기초 쌓기 Linear Regression 이란 무엇인가??? [빅공남! 통계 같이 공부해요] . 회귀분석(Regression) 이란 무엇인가?는 통계, 기초통계학, 빅데이터, 머신러닝 등에서 반드시 알아야할 기초 개념중에 하나입니다. 회귀분석(Regression)를 공부하려면 먼저 상관계수의 개념을 이해해야기 때문에 지난 포스팅 빅공남 13번 포스팅에서는 상관계수를 주제로 영상을 만들었습니다. 오늘 포스팅을 위해 지난 포스팅 링크 먼저 추가하겠습니다. 유튜브 영상은 포스팅 맨 아래에 있습니다. 상관계수 Correlation 이란 무엇인가??? [빅공남! 통계 같이 공부해요] 상관계수 Correlation 이란 무엇인가?는 통계, 기초통계학, 빅데이터, 머신러닝 등에서 반드시 알아야할 기초 개념중에 하나입니다. 상관계수를 공부하려면 먼저 공분산의 개념을 이해해야기 때문 seeyapangpang.t.. 빅데이터/통계노트 2021. 12. 31. 더보기 ›› 상관계수 Correlation 이란 무엇인가??? [빅공남! 통계 같이 공부해요] 상관계수 Correlation 이란 무엇인가?는 통계, 기초통계학, 빅데이터, 머신러닝 등에서 반드시 알아야할 기초 개념중에 하나입니다. 상관계수를 공부하려면 먼저 공분산의 개념을 이해해야기 때문에 지난 포스팅 빅공남 #12에서는 공분산을 주제로 영상을 만들었습니다. 오늘 포스팅을 위해 지난 포스팅 링크 먼저 추가하겠습니다. 공분산 Covariance 란 무엇인가??? [빅공남! 통계 같이 공부해요] 공분산(Covariance)란 무엇인가?는 통계 및 기초통계학 공부를 하는데 있어서 중요한 개념중에 하나 입니다. 빅데이터 분석기사 2과목 빅데이터 탐색에서 중요한 주제인 상관계수를 공부하기 앞서 seeyapangpang.tistory.com 상관계수(Correlation)은 결국 회귀분석(Regressio.. 빅데이터/통계노트 2021. 12. 31. 더보기 ›› 공분산 Covariance 란 무엇인가??? [빅공남! 통계 같이 공부해요] 공분산(Covariance)란 무엇인가?는 통계 및 기초통계학 공부를 하는데 있어서 중요한 개념중에 하나 입니다. 빅데이터 분석기사 2과목 빅데이터 탐색에서 중요한 주제인 상관계수를 공부하기 앞서 공분산 Covariance의 개념에 대해서 정리하는 포스팅을 준비했습니다. 상관계수를 공부하다보면 공분산(covariance)라는 말이 나옵니다. 상관계수는 그리고 두 변수간의 직선관계, 1차식의 계수를 찾아가는 과정이라고 하는데요... 하지만 다음과 같이 수식을 보면 머리가 아파집니다. 상관계수는 -1에서 1사이의 값을 가지고 직선성을 나타낸다고 하는데... 수식을 살펴보면 상관계수 식에는 공분산(Covariance) 개념이 들어갑니다. 수식을 파고들기보다는 직관적으로 어떤 의미를 가지는가?에 대해서 포커스를.. 빅데이터/통계노트 2021. 12. 31. 더보기 ›› 변수선택(필터/랩퍼/임베디드) [빅공남! 통계 같이 공부해요] 필터 랩퍼 임베디드 3가지 기법 분석 변수 처리에 관해서 오늘 포스팅을 준비했습니다. 2과목 빅데이터 탐색에서 데이터 전처리 두번째 주제가 분석 변수 처리입니다. 위의 주제를 공부하기 앞서, Feature와 Label의 차이에 관한 지난 포스팅을 참고하고 오늘 포스팅을 보면 도움이 됩니다. 지난 시간에는 원인 변수인 Feature와 결과 변수인 Target 또는 Label에 대해서 알아보았고 오늘은 변수를 선택하는 방법 3가지에 대해서 정리해보고자 합니다, 1. 변수 선택 (필터/랩퍼/임베디드?) 위의 그림을 보면 3가지 기법을 간단하게 쉽게 비교해볼 수 있습니다. 1) 필터(Filter) 기법 Ranking ☞ Top? 2) 랩퍼(Wrapper) 기법 Repetation? ☞ Optimal? 3) 임베.. 빅데이터/통계노트 2021. 12. 31. 더보기 ›› 변수 Feature vs Target, Feature Engineering [빅공남! 통계 같이 공부해요] 빅데이터 분석기사 빅분기 변수 Feature Label Feature Engineering 는 빅데이터 탐색 2과목에서 하나의 주제와 관련이 있습니다. 데이터 검정사이트에서 2과목 빅데이터 탐색에서 데이터 전처리 두번째 주제가 분석 변수 처리입니다. 데이터 전처리 과목은 크게 데이터 정제와 분석 변수처리로 나눌 수 있습니다. 분석 변수처리의 소주제로는 다음과 같습니다. 1) 변수 선택 (Feature Selection) 2) 차원 축소 (Dimension Reduction) 3) 파생 변수 (Derived Variable) 4) 변수 변환 (Variable Transformation) 5) 불균형 데이터 처리 (Under/Over Sampling) 위의 주제를 공부하기 앞서, Feature와 Label의.. 빅데이터/통계노트 2021. 12. 30. 더보기 ›› 이상값 이상치 Outlier 탐지 [빅공남! 통계 같이 공부해요] 빅데이터 분석기사 빅분기 이상값 이상치 Outlier 아웃라이어 탐지는 데이터 분석에서 중요한 이슈 중에 하나입니다. 데이터 검정 사이트에서 2과목 빅데이터 탐색의 주제를 살펴보면 이상값 처리라라는 주제가 있는 것을 확인 할 수 있습니다. 그래서 오늘 포스팅에서는 이상값, 이상치(Outlier)를 탐색을 왜 해야하는가?에 대해서 정리를 해보고 내용을 정리해보도록 하겠습니다. 오늘 공부에 도움되는 유튜브 영상 링크는 맨 아래 첨부하겠습니다. 1. 이상치(Outlier) 탐색해야 하는 이유? 데이터들의 분포를 통해서 추세선을 찾아 내는 방법을 회귀분석(Linear Regression)이라고 합니다. 그림의 왼쪽 처럼 직선으로 우상향하는 추세가 있는데 이상치(Outlier)가 있다면 추세선은 좀더 아래로 내려.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 결측값 결측치 종류 및 대체 (MCAR MAR MNAR) [빅공남! 통계 같이 공부해요] 결측값 결측치 (Missing Value) 유형 무엇인지, 그리고 결측값을 어떻게 대체할 것인가는 통계, 빅데이터를 다루는 입장에서 중요한 문제중에 하나입니다. 지난 포스팅에서는 결측치 vs 이상치 또는 결측값 vs 이상값의 차이에 대해서 정리를 해보았습니다. 오늘은 지난 포스팅에 이어서 결측값이 종류가 무엇이 있는지? 그리고 대체할 수 있는 방법이 무엇인지 알아보는 포스팅을 시작하려고 합니다. 데이터 검정 사이트에서 빅데이터 분석기사 2과목 빅데이터 탐색 목차를 먼저 살펴 보겠습니다. 데이터 전처리, 데이터 정제, 결측값 처리, 이상값처리, 변수 변환, 불균형 데이터 처리가 2-1과목 굵직한 키워드로 등장을 합니다. 하나의 굵직한 소주제인 결측값 처리에 대해서 오늘 같이 공부하도록 하겠습니다. 1. 결.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 결측값 vs 이상값 Missing Value vs Outlier 이상치 vs 결측치 [빅공남! 통계같이 공부해요] 결측값 이상값 Missing Value Outlier 이상치 결측치 빅데이터 분석기사 필기 2과목 통계의 전처리 단원에서는 3가지 큰 주제가 있습니다. 데이터 검정사이트에서 빅데이터 분석기사 시험 주제에 대해서 확인 할 수 있습니다. [빅데이터 분석기사 2과목 전처리] 1) 데이터 정제 2) 데이터 결측값 처리 3) 데이터 이상값 처리 대표사진 삭제 사진 설명을 입력하세요. 오늘은 데이터 전처리의 주제 제목인 결측값 처리와 이상값처리 공부에 앞어서 결측값 vs 이상값이 어떤 값들인지에 대해서 정리하는 글을 준비했습니다. 1. 결측치(Missing Value)란?? 결측치란 값이 비어 있는 데이터를 의미함. 아예 공란으도 되어 있거나,NA(Not Available), NaN(Not a Number), Nu.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› Preprocessing vs EDA 전처리 vs 탐색적 데이터 분석 [빅공남! 통계같이 공부해요] . 전처리(Preproecessing) vs 탐색적 데이터 분석(EDA) 빅데이터 분석기사 필기 2과목 공부에 앞서 두 개념에 대해서 이해하는 포스팅을 준비했습니다. 데이터 검정에서 빅데이터분석기사 목차에 대해서 확인할 수 있습니다. 2과목 빅데이터 탐색의 주제는 크게 3가지로 나뉩니다. [빅데이터 분석기사 2과목 주제] 1) 전처리 2) 데이터탐색 3) 통계기법의 이해 3가지 굵직한 주제에서 알 수 있듯이 전처리, 데이터 탐색이라는 단어가 등장합니다. 갑자기 탐색? 이라는 단어가 왜 등장했는지? 전처리가 무엇인지? 에 관한 궁금증이 들 수 있습니다. 전처리(Preprocessing) 과 탐색적 데이터 분석(EDA) 비슷한 과정으로 혼용해서 쓰는 경우도 있는데 오늘 포스팅에서 두 가지가 어떤 과정인지 이.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 통계 Box Plot Stem-Leaf 시각적 데이터 탐색 차트 [빅공남! 통계 같이 공부해요] . Box Plot Stem Leaf 시각적 데이터 탐색 빅데이터 분석기사 필기 2과목 빅데이터 탐색에서는 시각적 데이터 탐색이라는 주제가 등장합니다. 데이터 검정사이트의 빅데이터 분석기사 시험 범위를 보면 확인할 수 있습니다. 대표사진 삭제 출처 : 데이터검정 빅데이터 분석기사 출제범위 기술통계 vs 추론통계 [빅공남! 통계 같이 공부해요] 기술통계 추론통계 빅데이터 분석기사 필기 2과목 빅데이터 탐색에선는 통계에 관련된 내용들이 많이 등장... 기술통계 vs 추론통계 차이점에 대해서 정리를 했었고 오늘의 주제인 시각적 데이터 탐색은 기술통계 영역이라고 볼 수 있습니다. 오늘 포스팅에서는 시각적 데이터 탐색인 차트 종류에 대해서 살펴보고 특히 Box Plot, Stem-Leaf 차트에 대해서 알아보고자.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 왜도 Skew 첨도 Kurtosis (분포의 모양 기초통계량) [빅공남! 통계같이 공부해요] . 왜도 Skew 첨도 Kurtosis는 분포의 모양을 나타내는 기초통계량 값입니다. 기초통계량 3가지중 마지막 내용으로 좌우 비대칭성, 뾰족한 정도를 나타내는 값들에 대해서 정리해보고자 합니다. 1. 기초통계량 종류 1) 중심경향 기초통계량 (Central Tendency) 2) 산포도(Degree Dispersion) 3) 분포의 형태 (Shape of Distribution) 2. 분포의 형태(Shape of Distribution) 기초통계량 2번쨰인 산포도에서는 주로 분산으로 퍼짐정도를 측정하였습니다. 분산 = 편차의 제곱의 평균이므로 항상 제곱으로 숫자를 양수로 만들게 됩니다. 때문에 평균에 비해서 오른쪽에 쏠려있는지, 왼쪽에 쏠려있는지에 대해서 좌우 비대칭성을 나타낼 수 없습니다. 또한 .. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 퍼짐정도 분산 표준편차 사분위편차(IQR) 변동계수 산포도 기초통계량(Degree of Dispersion) [빅공남! 통계같이 공부해요] 기초통계량은 크게 3가지로 분류할 수 있습니다. 오늘은 기초통계량 3가지중 2번째인 산포도(Degree of Dispersion)에 관한 주제입니다. 1. 기초통계량 종류 1) 중심경향 기초통계량 (Central Tendency) 2) 산포도(Degree Dispersion) 3) 분포의 형태 (Shape of Distribution) 2. 산포도(Degree of Dispersion) 데이터의 중앙으로부터 흔터진 정도를 측정하는 기술통계량 1) 분산(Variance) 편차의 제곱의 평균 2) 범위(Range) 데이터 구간의 길이 (최대값 - 최소값) 3) 사분위편차(Inter Quartile Range) Q3 - Q1 (오름차순 25%, 50%, 75%,100%) Q3 : 3분위수 (75% 숫자) Q1.. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› Mean Median Mode 중심경향 기초통계량(Central Tendency) [빅공남! 통계 같이 공부해요] 사진 설명을 입력하세요. 기술통계(Descriptive Staticstics)는 지난 포스팅에서 정리했듯이, 데이터를 요약하는 값들로 표현하는 것을 의미하고 이러한 데이터를 기초통계량이라고 합니다. 기초통계량은 크게 3가지로 분류할 수 있습니다. 1. 기초통계량 분류 1) 중심경향 기초통계량 (Central Tendency) 2) 산포도(Degree Dispersion) 3) 분포의 형태 (Shape of Distribution) 2. 중심경향 기초통계량 데이터의 중앙을 대표하는 값들은 아래와 같이 3가지 값으로 계산할 수 있습니다. 1) 평균 (Mean) 산술평균, 기하평균, 조화평균 2) 중앙값 (Median) 데이터를 오름차순으로 정렬했을 때, 가장 중앙에 위치한 값 3) 최빈값 (Mode) 가장 .. 빅데이터/통계노트 2021. 12. 28. 더보기 ›› 기술통계 vs 추론통계 [빅공남 통계 같이 공부해요] 기술통계 추론통계 빅데이터 분석기사 필기 2과목 빅데이터 탐색에선는 통계에 관련된 내용들이 많이 등장합니다. 빅공남 통계노트에서는 통계 개념과 관련된 내용들을 공부하면서 정리해보고자 합니다. 오늘은 첫번째 시간으로 2-3 과목 통계기법을 큰 틀에서 보면 기초통계 vs 추론통계로 나눌 수 있습니다. 오늘은 먼저 기초통계와 추론통계가 무엇인지에 대해서 정리를 해보고자 합니다.먼저, 기초통계 vs 추론통계를 이해하기 위한 그림을 찾아보았습니다. . 출처 : https://learn.g2.com/inferential-analysis 출처 :https://sciencestruck.com/descriptive-vs-inferential-statistics 1. 기술통계란? 데이터를 묘사하고 요약하는 정보를 주는 통.. 빅데이터/통계노트 2021. 7. 21. 더보기 ›› 이전 1 2 다음