본문 바로가기

빅데이터공부하는남자30

변수선택(필터/랩퍼/임베디드) [빅공남! 통계 같이 공부해요] 필터 랩퍼 임베디드 3가지 기법 분석 변수 처리에 관해서 오늘 포스팅을 준비했습니다. 2과목 빅데이터 탐색에서 데이터 전처리 두번째 주제가 분석 변수 처리입니다. 위의 주제를 공부하기 앞서, Feature와 Label의 차이에 관한 지난 포스팅을 참고하고 오늘 포스팅을 보면 도움이 됩니다. 지난 시간에는 원인 변수인 Feature와 결과 변수인 Target 또는 Label에 대해서 알아보았고 오늘은 변수를 선택하는 방법 3가지에 대해서 정리해보고자 합니다, 1. 변수 선택 (필터/랩퍼/임베디드?) 위의 그림을 보면 3가지 기법을 간단하게 쉽게 비교해볼 수 있습니다. 1) 필터(Filter) 기법 Ranking ☞ Top? 2) 랩퍼(Wrapper) 기법 Repetation? ☞ Optimal? 3) 임베.. 빅데이터/통계노트 2021. 12. 31.
변수 Feature vs Target, Feature Engineering [빅공남! 통계 같이 공부해요] 빅데이터 분석기사 빅분기 변수 Feature Label Feature Engineering 는 빅데이터 탐색 2과목에서 하나의 주제와 관련이 있습니다. 데이터 검정사이트에서 2과목 빅데이터 탐색에서 데이터 전처리 두번째 주제가 분석 변수 처리입니다. 데이터 전처리 과목은 크게 데이터 정제와 분석 변수처리로 나눌 수 있습니다. 분석 변수처리의 소주제로는 다음과 같습니다. 1) 변수 선택 (Feature Selection) 2) 차원 축소 (Dimension Reduction) 3) 파생 변수 (Derived Variable) 4) 변수 변환 (Variable Transformation) 5) 불균형 데이터 처리 (Under/Over Sampling) 위의 주제를 공부하기 앞서, Feature와 Label의.. 빅데이터/통계노트 2021. 12. 30.
이상값 이상치 Outlier 탐지 [빅공남! 통계 같이 공부해요] 빅데이터 분석기사 빅분기 이상값 이상치 Outlier 아웃라이어 탐지는 데이터 분석에서 중요한 이슈 중에 하나입니다. 데이터 검정 사이트에서 2과목 빅데이터 탐색의 주제를 살펴보면 이상값 처리라라는 주제가 있는 것을 확인 할 수 있습니다. 그래서 오늘 포스팅에서는 이상값, 이상치(Outlier)를 탐색을 왜 해야하는가?에 대해서 정리를 해보고 내용을 정리해보도록 하겠습니다. 오늘 공부에 도움되는 유튜브 영상 링크는 맨 아래 첨부하겠습니다. 1. 이상치(Outlier) 탐색해야 하는 이유? 데이터들의 분포를 통해서 추세선을 찾아 내는 방법을 회귀분석(Linear Regression)이라고 합니다. 그림의 왼쪽 처럼 직선으로 우상향하는 추세가 있는데 이상치(Outlier)가 있다면 추세선은 좀더 아래로 내려.. 빅데이터/통계노트 2021. 12. 28.
결측값 결측치 종류 및 대체 (MCAR MAR MNAR) [빅공남! 통계 같이 공부해요] 결측값 결측치 (Missing Value) 유형 무엇인지, 그리고 결측값을 어떻게 대체할 것인가는 통계, 빅데이터를 다루는 입장에서 중요한 문제중에 하나입니다. 지난 포스팅에서는 결측치 vs 이상치 또는 결측값 vs 이상값의 차이에 대해서 정리를 해보았습니다. 오늘은 지난 포스팅에 이어서 결측값이 종류가 무엇이 있는지? 그리고 대체할 수 있는 방법이 무엇인지 알아보는 포스팅을 시작하려고 합니다. 데이터 검정 사이트에서 빅데이터 분석기사 2과목 빅데이터 탐색 목차를 먼저 살펴 보겠습니다. 데이터 전처리, 데이터 정제, 결측값 처리, 이상값처리, 변수 변환, 불균형 데이터 처리가 2-1과목 굵직한 키워드로 등장을 합니다. 하나의 굵직한 소주제인 결측값 처리에 대해서 오늘 같이 공부하도록 하겠습니다. 1. 결.. 빅데이터/통계노트 2021. 12. 28.
결측값 vs 이상값 Missing Value vs Outlier 이상치 vs 결측치 [빅공남! 통계같이 공부해요] 결측값 이상값 Missing Value Outlier 이상치 결측치 빅데이터 분석기사 필기 2과목 통계의 전처리 단원에서는 3가지 큰 주제가 있습니다. 데이터 검정사이트에서 빅데이터 분석기사 시험 주제에 대해서 확인 할 수 있습니다. [빅데이터 분석기사 2과목 전처리] 1) 데이터 정제 2) 데이터 결측값 처리 3) 데이터 이상값 처리 대표사진 삭제 사진 설명을 입력하세요. 오늘은 데이터 전처리의 주제 제목인 결측값 처리와 이상값처리 공부에 앞어서 결측값 vs 이상값이 어떤 값들인지에 대해서 정리하는 글을 준비했습니다. 1. 결측치(Missing Value)란?? 결측치란 값이 비어 있는 데이터를 의미함. 아예 공란으도 되어 있거나,NA(Not Available), NaN(Not a Number), Nu.. 빅데이터/통계노트 2021. 12. 28.
Preprocessing vs EDA 전처리 vs 탐색적 데이터 분석 [빅공남! 통계같이 공부해요] . 전처리(Preproecessing) vs 탐색적 데이터 분석(EDA) 빅데이터 분석기사 필기 2과목 공부에 앞서 두 개념에 대해서 이해하는 포스팅을 준비했습니다. 데이터 검정에서 빅데이터분석기사 목차에 대해서 확인할 수 있습니다. 2과목 빅데이터 탐색의 주제는 크게 3가지로 나뉩니다. [빅데이터 분석기사 2과목 주제] 1) 전처리 2) 데이터탐색 3) 통계기법의 이해 3가지 굵직한 주제에서 알 수 있듯이 전처리, 데이터 탐색이라는 단어가 등장합니다. 갑자기 탐색? 이라는 단어가 왜 등장했는지? 전처리가 무엇인지? 에 관한 궁금증이 들 수 있습니다. 전처리(Preprocessing) 과 탐색적 데이터 분석(EDA) 비슷한 과정으로 혼용해서 쓰는 경우도 있는데 오늘 포스팅에서 두 가지가 어떤 과정인지 이.. 빅데이터/통계노트 2021. 12. 28.
통계 Box Plot Stem-Leaf 시각적 데이터 탐색 차트 [빅공남! 통계 같이 공부해요] . Box Plot Stem Leaf 시각적 데이터 탐색 빅데이터 분석기사 필기 2과목 빅데이터 탐색에서는 시각적 데이터 탐색이라는 주제가 등장합니다. 데이터 검정사이트의 빅데이터 분석기사 시험 범위를 보면 확인할 수 있습니다. 대표사진 삭제 출처 : 데이터검정 빅데이터 분석기사 출제범위 기술통계 vs 추론통계 [빅공남! 통계 같이 공부해요] 기술통계 추론통계 빅데이터 분석기사 필기 2과목 빅데이터 탐색에선는 통계에 관련된 내용들이 많이 등장... 기술통계 vs 추론통계 차이점에 대해서 정리를 했었고 오늘의 주제인 시각적 데이터 탐색은 기술통계 영역이라고 볼 수 있습니다. 오늘 포스팅에서는 시각적 데이터 탐색인 차트 종류에 대해서 살펴보고 특히 Box Plot, Stem-Leaf 차트에 대해서 알아보고자.. 빅데이터/통계노트 2021. 12. 28.
왜도 Skew 첨도 Kurtosis (분포의 모양 기초통계량) [빅공남! 통계같이 공부해요] . 왜도 Skew 첨도 Kurtosis는 분포의 모양을 나타내는 기초통계량 값입니다. 기초통계량 3가지중 마지막 내용으로 좌우 비대칭성, 뾰족한 정도를 나타내는 값들에 대해서 정리해보고자 합니다. ​ 1. 기초통계량 종류 1) 중심경향 기초통계량 (Central Tendency) 2) 산포도(Degree Dispersion) 3) 분포의 형태 (Shape of Distribution) 2. 분포의 형태(Shape of Distribution) 기초통계량 2번쨰인 산포도에서는 주로 분산으로 퍼짐정도를 측정하였습니다. 분산 = 편차의 제곱의 평균이므로 항상 제곱으로 숫자를 양수로 만들게 됩니다. 때문에 평균에 비해서 오른쪽에 쏠려있는지, 왼쪽에 쏠려있는지에 대해서 좌우 비대칭성을 나타낼 수 없습니다. 또한 .. 빅데이터/통계노트 2021. 12. 28.
퍼짐정도 분산 표준편차 사분위편차(IQR) 변동계수 산포도 기초통계량(Degree of Dispersion) [빅공남! 통계같이 공부해요] 기초통계량은 크게 3가지로 분류할 수 있습니다. 오늘은 기초통계량 3가지중 2번째인 산포도(Degree of Dispersion)에 관한 주제입니다. 1. 기초통계량 종류 1) 중심경향 기초통계량 (Central Tendency) 2) 산포도(Degree Dispersion) 3) 분포의 형태 (Shape of Distribution) 2. 산포도(Degree of Dispersion) 데이터의 중앙으로부터 흔터진 정도를 측정하는 기술통계량 1) 분산(Variance) 편차의 제곱의 평균 2) 범위(Range) 데이터 구간의 길이 (최대값 - 최소값) 3) 사분위편차(Inter Quartile Range) Q3 - Q1 (오름차순 25%, 50%, 75%,100%) Q3 : 3분위수 (75% 숫자) Q1.. 빅데이터/통계노트 2021. 12. 28.
Mean Median Mode 중심경향 기초통계량(Central Tendency) [빅공남! 통계 같이 공부해요] 사진 설명을 입력하세요. 기술통계(Descriptive Staticstics)는 지난 포스팅에서 정리했듯이, 데이터를 요약하는 값들로 표현하는 것을 의미하고 이러한 데이터를 기초통계량이라고 합니다. 기초통계량은 크게 3가지로 분류할 수 있습니다. 1. 기초통계량 분류 1) 중심경향 기초통계량 (Central Tendency) 2) 산포도(Degree Dispersion) 3) 분포의 형태 (Shape of Distribution) 2. 중심경향 기초통계량 데이터의 중앙을 대표하는 값들은 아래와 같이 3가지 값으로 계산할 수 있습니다. 1) 평균 (Mean) 산술평균, 기하평균, 조화평균 2) 중앙값 (Median) 데이터를 오름차순으로 정렬했을 때, 가장 중앙에 위치한 값 3) 최빈값 (Mode) 가장 .. 빅데이터/통계노트 2021. 12. 28.