Mean Median Mode 중심경향 기초통계량(Central Tendency) [빅공남! 통계 같이 공부해요]
![](https://blog.kakaocdn.net/dn/KgBlg/btroVkoyvPF/zqJOF7Wl0Jfy2eX2SIUKtk/img.png)
사진 설명을 입력하세요.
기술통계(Descriptive Staticstics)는 지난 포스팅에서 정리했듯이, 데이터를 요약하는 값들로 표현하는 것을 의미하고 이러한 데이터를 기초통계량이라고 합니다. 기초통계량은 크게 3가지로 분류할 수 있습니다.
1. 기초통계량 분류
1) 중심경향 기초통계량 (Central Tendency)
2) 산포도(Degree Dispersion)
3) 분포의 형태 (Shape of Distribution)
2. 중심경향 기초통계량
데이터의 중앙을 대표하는 값들은 아래와 같이 3가지 값으로 계산할 수 있습니다.
1) 평균 (Mean)
산술평균, 기하평균, 조화평균
2) 중앙값 (Median)
데이터를 오름차순으로 정렬했을 때,
가장 중앙에 위치한 값
3) 최빈값 (Mode)
가장 빈도가 높은 변량, 데이터 모두가
1번씩 빈도가 있다면 최빈값은 없음.
3. 중앙값(Median) 계산?
중앙값은 데이터의 개수가 홀수/짝수 일때로 구분해서 볼 수 있습니다. 데이터의 개수를 n이라고 하면,
1) n이 홀수 : (n+1)/2 번째 숫자
2) n이 짝수 : n/2번째, n/2번째 숫자의 평균
![](https://blog.kakaocdn.net/dn/o6vjW/btro7fyWzcX/k0rAUu6sisN2gP1MytRpJk/img.png)
사진 설명을 입력하세요.
다음과 같이 5개의 숫자 [1,2,2,50,100]가 있는 경우에는 가운데 3번째 숫자가 정확히 가운데 숫자이고 양쪽에 2개씩 숫자가 있게 됩니다. 이 경우 중앙값(Median)은 세번째 숫자인 2가 됩니다. 즉, 홀수 5개의 숫자가 있을 경우에는 (5+1)/2 = 3번째 숫자가 Median입니다.
![](https://blog.kakaocdn.net/dn/kDqV9/btroVjJX0cz/5ljPrke9WWFDvBqAJXll90/img.png)
사진 설명을 입력하세요.
이번에는 6개의 숫자 [1,2,2,50,100,120]가 있는 경우에는 정확히 가운데의 숫자는 없습니다. 그 이유는 3개/3개 총 6개 짝수 개수가 있기 때문입니다. 이 경우에는 3번째 숫자와 4번째 숫자의 평균으로 중앙값(Median)을 계산하게 됩니다. 즉, 6/2=3, 6/2 + 1 = 4 로 3,4번째 숫자를 찾는다고 볼 수 있습니다. 3번째 숫자는 2이고, 4번째 숫자는 50이기 떄문에 중앙값은 (2+50)/2 = 26 Median)입니다.
4. 파이썬으로 기초통계량 계산?
데이터검정 사이트의 빅데이터 분석기사 실기 체험 링크 공지사항을 따라가면 구름 IDE의 시험 테스트환경에서 파이썬 코딩을 간단하게 작성해볼 수 있습니다(포스팅 맨 아래 링크 첨부하겠습니다). import staticstics 명령어를 쓰면 파이썬에서 통계관련 라이브러리함수를 불러올 수 있습니다. 아래 내용을 참고해서 명령어를 입력해서 파이썬 코딩으로 기초통계량 값을 계싼해보면 다음과 같이 해볼 수 있습니다.
import statistics
statistics.mean( 데이터 )
statistics.median( 데이터 )
statistics.mode( 데이터 )
![](https://blog.kakaocdn.net/dn/xtW3R/btro13suGb5/5vE810X4sRzsWjFXw7jGB1/img.png)
중심경향 기초통계량 파이썬 코딩실습1
![](https://blog.kakaocdn.net/dn/bzf6MP/btroVlnpWur/fDfKWNRJ9Diw1LwXCxuse1/img.png)
중심경향 기초통계량 파이썬 코딩결과1
위의 파이썬 코딩실습 1결과를 보면
평균(Mean) = 12
중앙값(Median) = 2
최빈값(Mode) = 1
이 나옵니다. 중앙값은 10개의 짝수 데이터가 존재하므로, 10/2 = 5번째, 그리고 6번째 숫자의 평균으로 구할 수 잇습니다. 5번째 숫자도 2, 6번째 숫자도 2이므로 중앙값은 2가 됩니다. 최빈값(Mode) = 1이 나오는데 빈도가 4번으로 가장 큰 값이기 때문입니다.
5. 중앙값(Median)은 극단치를 피할때 사용할 수 있다?
평균은 극단치 값에 취약할 수 있습니다. 갑자기 터무니 없이 큰 데이터 숫자가 변수에 한두개 있으면 전체적인 평균값이 올라갈 수 있습니다. 아래의 예시를 통해서 평균이 어떻게 영향을 받는지 확인해 보겠습니다.
![](https://blog.kakaocdn.net/dn/b7SGeu/btro13MSsMK/XWVyaaWKQVLwqR4cm4VqsK/img.png)
기초통계량 파이썬 코딩실습2
5개의 데이터 [1,2,2,3,100]이 있다고 가정합니다. 100이라는 극단치가 숫자에 섞이게 되면 평균(Mean)은 21.6이 나오게 됩니다. 분포에 비해서 갑자기 큰 숫자가 하나 들어오면서 평균을 높이는 효과가 나타탔습니다. 만약 평균(Mean)만 보고 분포를 추측한다면 이 집단은 21.6정도 에서 퍼져있는 분포라고 생각을 할 수 있습니다. 그런데 만약 평균(Mean)이 아니라 중앙값(Median)을 택한다면 오름차순의 정중앙값을 택할 수 있기 떄문에 극단치 100의 효과를 제거하고 볼 수 있습니다.
[빅공남 유트브 채널 바로가기]
![](https://blog.kakaocdn.net/dn/FdAnq/btro12AlYFo/QllQzCJRRz2qzRSYd44RG0/img.png)
[빅공남! 통계 같이해요 바로가기]
[빅공남! 문과생을 위한 고등수학 13강]
[빅공남통계 - 중심경향성 기초통계량]
'빅데이터 > 통계노트' 카테고리의 다른 글
Preprocessing vs EDA 전처리 vs 탐색적 데이터 분석 [빅공남! 통계같이 공부해요] (0) | 2021.12.28 |
---|---|
통계 Box Plot Stem-Leaf 시각적 데이터 탐색 차트 [빅공남! 통계 같이 공부해요] (0) | 2021.12.28 |
왜도 Skew 첨도 Kurtosis (분포의 모양 기초통계량) [빅공남! 통계같이 공부해요] (0) | 2021.12.28 |
퍼짐정도 분산 표준편차 사분위편차(IQR) 변동계수 산포도 기초통계량(Degree of Dispersion) [빅공남! 통계같이 공부해요] (0) | 2021.12.28 |
기술통계 vs 추론통계 [빅공남 통계 같이 공부해요] (0) | 2021.07.21 |
댓글