통계 Box Plot Stem-Leaf 시각적 데이터 탐색 차트 [빅공남! 통계 같이 공부해요]
Box Plot Stem Leaf 시각적 데이터 탐색 빅데이터 분석기사 필기 2과목 빅데이터 탐색에서는 시각적 데이터 탐색이라는 주제가 등장합니다. 데이터 검정사이트의 빅데이터 분석기사 시험 범위를 보면 확인할 수 있습니다.
출처 : 데이터검정 빅데이터 분석기사 출제범위
기술통계 추론통계 빅데이터 분석기사 필기 2과목 빅데이터 탐색에선는 통계에 관련된 내용들이 많이 등장...
기술통계 vs 추론통계 차이점에 대해서 정리를 했었고 오늘의 주제인 시각적 데이터 탐색은 기술통계 영역이라고 볼 수 있습니다.
오늘 포스팅에서는 시각적 데이터 탐색인 차트 종류에 대해서 살펴보고 특히 Box Plot, Stem-Leaf 차트에 대해서 알아보고자 합니다.
1. 시각적 데이터 탐색 차트 종류
1) 히스토그램(Histogram)
2) 막대그래프(Bar Chart)
3) 파이차트(Pie Chart)
4) 산점도(Scatter Chart)
5) 줄기-잎(Stem-Leaf Diagram)
6) 상자수염(Box-Plot) ★중요★
2. 시각적 데이터 탐색 차트 종류
1) 히스토그램(Histogram)
- 각 데이터의 도수 또는 상대도수 나타냄.
- 일정한 구간(간격)으로 나누고 도수를 시각화
사진 설명을 입력하세요.
2) 막대그래프(Bar Chart)
- 각 데이터에 대한 수치적 값들을 나타낼 경우
3) 파이차트(Pie Chart)
- 각 데이터에 대한 상대도수(비율)을 시각화(%)
4) 산점도(Scatter Chart)
두 변수를 좌표(x,y)로 나타냄. 상관관계 분석
5) 줄기-잎(Stem-Leaf Diagram)
- 줄기-잎구조로 데이터 정리 및 구분
사진 설명을 입력하세요.
사진 설명을 입력하세요.
6) 상자수염(Box-Plot) ★중요★
이상치를 확인하기 위해서 5가지 요약
Low, Q1(25%), Q2(50%), Q3(75%), UP
3. Box Plot을 이해하기 전에....
Box Plot을 이해하기 위해서는 먼저 IQR(4분위 편차) 개념을 공부하고 이해하면 도움이 됩니다. [빅공남! 통계 같이 공부해요] 코너에서 퍼짐정도 측정 기술통계량 내용을 보면 이해할 수 있습니다.
4. Box Plot 이해하기
Box Plot은 먼저 눈으로 사분위 지점을 빠르게 파악을 할 수 있고 이상치가 어느 정도인지 빠르게 판단 할 수 있습니다. 중요한점은 Q3(75%)지점에서 IQR의 1.5배를 더한 값 까지는 정상범위로 본다는 점입니다. 마찬가지로 Q1(25%)지점에서 IQR의 1.5배를 뺸 값까지도 정상범위로 봅니다. 그래서 아래 그림을 보면서 Box Plot 그래프 그리는 방법을 정리해보았습니다.
[Box Plot 그리는 방법]
1) 데이터를 오름차순으로 정렬
2) 사분위수 Q1(25%), Q2(50%), Q3(75%) 찾음.
3) Q1(25%), Q3(75%)지점에서 Box 그리기
4) Box 내부에 Q2(50%) 지점 표시 (Median 표시)
5) IQR(사분위편차) 계산
IQR = Q3(75%) - Q1(25%)
6) Whisper 표시
Upper Whisper = Q3(75%) + 1.5 * IQR
Lower Whisper = Q1(25%) - 1.5 * IQR
7) Whisper에서 벗어난 값들은 이상값으로 따로 표시.
5. 시각적 데이터 탐색 마치며...
시각적 데이터 탐색 그래프는 엑셀이 아니라 파이썬에서 그릴 수 있습니다. 기술 통계 영역인 시각적 데이터 탐색은 파이썬 라이브러인 Matplotlib을 통해 그래프를 그려볼 수 있습니다. 통계 포스팅을 마무리하면 파이썬으로 차트를 그리는 방법드로 정리해 나가겠습니다.
자세한 내용은 유트브 채널에서 만나요 ^^
[빅공남 유트브 채널 바로가기]
[빅공남! 통계 같이해요 바로가기]
[빅공남! 문과생을 위한 고등수학 13강]
[빅공남통계 - 시각적 데이터 탐색]
'빅데이터 > 통계노트' 카테고리의 다른 글
결측값 vs 이상값 Missing Value vs Outlier 이상치 vs 결측치 [빅공남! 통계같이 공부해요] (0) | 2021.12.28 |
---|---|
Preprocessing vs EDA 전처리 vs 탐색적 데이터 분석 [빅공남! 통계같이 공부해요] (0) | 2021.12.28 |
왜도 Skew 첨도 Kurtosis (분포의 모양 기초통계량) [빅공남! 통계같이 공부해요] (0) | 2021.12.28 |
퍼짐정도 분산 표준편차 사분위편차(IQR) 변동계수 산포도 기초통계량(Degree of Dispersion) [빅공남! 통계같이 공부해요] (0) | 2021.12.28 |
Mean Median Mode 중심경향 기초통계량(Central Tendency) [빅공남! 통계 같이 공부해요] (0) | 2021.12.28 |
댓글