왜도 Skew 첨도 Kurtosis (분포의 모양 기초통계량) [빅공남! 통계같이 공부해요]
왜도 Skew 첨도 Kurtosis는 분포의 모양을 나타내는 기초통계량 값입니다. 기초통계량 3가지중 마지막 내용으로 좌우 비대칭성, 뾰족한 정도를 나타내는 값들에 대해서 정리해보고자 합니다.
1. 기초통계량 종류
1) 중심경향 기초통계량 (Central Tendency)
2) 산포도(Degree Dispersion)
3) 분포의 형태 (Shape of Distribution)
2. 분포의 형태(Shape of Distribution)
기초통계량 2번쨰인 산포도에서는 주로 분산으로 퍼짐정도를 측정하였습니다. 분산 = 편차의 제곱의 평균이므로 항상 제곱으로 숫자를 양수로 만들게 됩니다. 때문에 평균에 비해서 오른쪽에 쏠려있는지, 왼쪽에 쏠려있는지에 대해서 좌우 비대칭성을 나타낼 수 없습니다. 또한 평균에 모여서 얼마나 뾰족한지도 측정할 수 없기에 왜도(Skewness) 첨도(Kurtosis) 개념이 등장하게 됩니다.
1) 왜도(Skewness) : 분포의 좌우 비대칭성
2) 첨도(Kurtosis) : 분포의 뾰족한 정도 (중심에서의)
3. 왜도(Skewness)
왜도(Skewness) 값을 계산하는 식은 아래와 같고 분포의 좌우 비대칭성을 나타내는 값입니다.
여기서 중요한 부분은 분모는 표준편차의 세제곱에해당합니다. 또한 분자에는 평균과의 거리를 계산하고 세제곱을 하기 때문에 음수의 값이 나올 수 있습니다. 그래서 편차에 비해서 평균에 멀리 떨어진 값들이 존재하면 Skew값은 커지게 됩니다.
1) Skew>0 : 평균에 비해 오른쪽 멀리에 값이 존재.
2) Skew<0 : 평균에 비해 왼쪽 멀리에 값이 존재
오른쪽 꼬리로 설명을 하자면...
1) Positive Skew : 오른쪽에 길게 꼬리가 늘어짐.
2) Negative Skew : 왼쪽에 길게 꼬리가 늘어짐.
으로 정리 해볼 수 있습니다. 아래의 그림을 보면 직관적으로 쉽게 이해할 수 있습니다.
4. 왜도(Skew)와 평균/중위/최빈값
이번에는 Skew 부호로 Mean/Median/Mode의 크기가 어떻게 되는지에 대해서 알아보겠습니다.
Mean(평균) : 면적이 절반이 되는 점
Median(중위값) : Mean, Mode 사이(50%지점)
Mode(최빈값) : 가장 높이 있는 점
각 Skew에서 봉우리(Mode)를 찾고 거기서 면적이 절반으로 나누어지는점(Mean)찾고 그 중간쯤에 Median이 있습니다. 그래서 아래와 같이 그림을 그려서 정리하면,
다음과 같이 결론을 내릴 수 있습니다.
1) Negative Skew : Mean<Median<Mode
2) Zero Skew : Mean = Median = Mode
3) Postivie Skew : Mean>Median>Mode
5. 첨도(Kurtosis)
각 첨도는 분포의 중심에서의 뾰족한 정도를 나타내는 값으로 아래의 식과 같습니다.
여기서 중요한점은 정규분포는 항상 Kurtosis값이 3이 나온다는 점입니다. 3을 기준으로 3보다 크면 뾰정규분포보다 뾰족함, 3보다 작으면 정규분포보다 완만한 분포를 볼 우 있습니다.
5. 첨도(Kurtosis)의 부호?? +, - ??
첨도는 k=3 정규분포를 기준으로 뾰족한 정도를 나타내기 때문에 왜도(Skew)처럼 Positive와 Negative로 표한하기도 합니다. 때문에 Kurtosis를 상황에 따라서는 3을 뺀 값으로 정리하기도 합니다. 그래서 아래의 식처럼 정의를 내리기도합니다.
5. 정리하며...
중심경향 기초통계량 : 가운데
퍼짐정도 기초통계량 : 퍼진 정도 (중심에서)
분포모양 기초통계량 : 좌우 비대칭, 뾰족
기초통계량 값을 통해서 요약된 값들로 분포가 어떻게 생겼는지 대략적으로 빠르게 판단할 수 있습니다. 기술통계량에서는 분포를 묘사하는 통계이며 기초통계량 값들을 계산해서 수치적으로 분포가 어떤분포인지 추측할 수 있는 의미를 전달한다는 부분에서 큰 의미가 있습니다. 좀더 자세한 설명은 빅공남 유트브 채널에서 도움을 받을 수 있습니다. 아래 빅공남 유트브 채널 및 영상 링크 첩부합니다.
[빅공남 유트브 채널 바로가기]
[빅공남! 통계 같이해요 바로가기]
[빅공남! 문과생을 위한 고등수학 13강]
빅공남 통계 관련 재생목록 유트브 링크
'빅데이터 > 통계노트' 카테고리의 다른 글
Preprocessing vs EDA 전처리 vs 탐색적 데이터 분석 [빅공남! 통계같이 공부해요] (0) | 2021.12.28 |
---|---|
통계 Box Plot Stem-Leaf 시각적 데이터 탐색 차트 [빅공남! 통계 같이 공부해요] (0) | 2021.12.28 |
퍼짐정도 분산 표준편차 사분위편차(IQR) 변동계수 산포도 기초통계량(Degree of Dispersion) [빅공남! 통계같이 공부해요] (0) | 2021.12.28 |
Mean Median Mode 중심경향 기초통계량(Central Tendency) [빅공남! 통계 같이 공부해요] (0) | 2021.12.28 |
기술통계 vs 추론통계 [빅공남 통계 같이 공부해요] (0) | 2021.07.21 |
댓글