본문 바로가기

Mean Median Mode 중심경향 기초통계량(Central Tendency) [빅공남! 통계 같이 공부해요]

KAIST수학전공쌤 2021. 12. 28.

 

 

사진 설명을 입력하세요.

기술통계(Descriptive Staticstics)는 지난 포스팅에서 정리했듯이, 데이터를 요약하는 값들로 표현하는 것을 의미하고 이러한 데이터를 기초통계량이라고 합니다. 기초통계량은 크게 3가지로 분류할 수 있습니다.

1. 기초통계량 분류

1) 중심경향 기초통계량 (Central Tendency)

2) 산포도(Degree Dispersion)

3) 분포의 형태 (Shape of Distribution)

 

2. 중심경향 기초통계량

데이터의 중앙을 대표하는 값들은 아래와 같이 3가지 값으로 계산할 수 있습니다.

 

1) 평균 (Mean)

산술평균, 기하평균, 조화평균

2) 중앙값 (Median)

데이터를 오름차순으로 정렬했을 때,

가장 중앙에 위치한 값

3) 최빈값 (Mode)

가장 빈도가 높은 변량, 데이터 모두가

1번씩 빈도가 있다면 최빈값은 없음.

 

3. 중앙값(Median) 계산?

중앙값은 데이터의 개수가 홀수/짝수 일때로 구분해서 볼 수 있습니다. 데이터의 개수를 n이라고 하면,

 

1) n이 홀수 : (n+1)/2 번째 숫자

2) n이 짝수 : n/2번째, n/2번째 숫자의 평균

사진 삭제

사진 설명을 입력하세요.

다음과 같이 5개의 숫자 [1,2,2,50,100]가 있는 경우에는 가운데 3번째 숫자가 정확히 가운데 숫자이고 양쪽에 2개씩 숫자가 있게 됩니다. 이 경우 중앙값(Median)은 세번째 숫자인 2가 됩니다. 즉, 홀수 5개의 숫자가 있을 경우에는 (5+1)/2 = 3번째 숫자가 Median입니다.

 

사진 삭제

사진 설명을 입력하세요.

이번에는 6개의 숫자 [1,2,2,50,100,120]가 있는 경우에는 정확히 가운데의 숫자는 없습니다. 그 이유는 3개/3개 총 6개 짝수 개수가 있기 때문입니다. 이 경우에는 3번째 숫자와 4번째 숫자의 평균으로 중앙값(Median)을 계산하게 됩니다. 즉, 6/2=3, 6/2 + 1 = 4 로 3,4번째 숫자를 찾는다고 볼 수 있습니다. 3번째 숫자는 2이고, 4번째 숫자는 50이기 떄문에 중앙값은 (2+50)/2 = 26 Median)입니다.

 

4. 파이썬으로 기초통계량 계산?

데이터검정 사이트의 빅데이터 분석기사 실기 체험 링크 공지사항을 따라가면 구름 IDE의 시험 테스트환경에서 파이썬 코딩을 간단하게 작성해볼 수 있습니다(포스팅 맨 아래 링크 첨부하겠습니다). import staticstics 명령어를 쓰면 파이썬에서 통계관련 라이브러리함수를 불러올 수 있습니다. 아래 내용을 참고해서 명령어를 입력해서 파이썬 코딩으로 기초통계량 값을 계싼해보면 다음과 같이 해볼 수 있습니다.

import statistics

statistics.mean( 데이터 )

statistics.median( 데이터 )

statistics.mode( 데이터 )

 

중심경향 기초통계량 파이썬 코딩실습1

중심경향 기초통계량 파이썬 코딩결과1

위의 파이썬 코딩실습 1결과를 보면

평균(Mean) = 12

중앙값(Median) = 2

최빈값(Mode) = 1

이 나옵니다. 중앙값은 10개의 짝수 데이터가 존재하므로, 10/2 = 5번째, 그리고 6번째 숫자의 평균으로 구할 수 잇습니다. 5번째 숫자도 2, 6번째 숫자도 2이므로 중앙값은 2가 됩니다. 최빈값(Mode) = 1이 나오는데 빈도가 4번으로 가장 큰 값이기 때문입니다.

 

5. 중앙값(Median)은 극단치를 피할때 사용할 수 있다?

평균은 극단치 값에 취약할 수 있습니다. 갑자기 터무니 없이 큰 데이터 숫자가 변수에 한두개 있으면 전체적인 평균값이 올라갈 수 있습니다. 아래의 예시를 통해서 평균이 어떻게 영향을 받는지 확인해 보겠습니다.

기초통계량 파이썬 코딩실습2

5개의 데이터 [1,2,2,3,100]이 있다고 가정합니다. 100이라는 극단치가 숫자에 섞이게 되면 평균(Mean)은 21.6이 나오게 됩니다. 분포에 비해서 갑자기 큰 숫자가 하나 들어오면서 평균을 높이는 효과가 나타탔습니다. 만약 평균(Mean)만 보고 분포를 추측한다면 이 집단은 21.6정도 에서 퍼져있는 분포라고 생각을 할 수 있습니다. 그런데 만약 평균(Mean)이 아니라 중앙값(Median)을 택한다면 오름차순의 정중앙값을 택할 수 있기 떄문에 극단치 100의 효과를 제거하고 볼 수 있습니다.

 

 

[빅공남 유트브 채널 바로가기]

[빅공남! 통계 같이해요 바로가기]

 

[빅공남! 문과생을 위한 고등수학 13강]

[빅공남통계 - 중심경향성 기초통계량]

 

 

 

 

 

댓글