평균 VS 중앙값 VS 최빈값
1. 평균이란?
평균이란? 모든 관측값의 합을 자료의 개수로 나눈 것
예)
89 74 91 88 72 84 의 평균을 구하여라.
> (89+74+91+88+72+84)/6 = 83
2. 중앙값이란?
중앙값이란? 전체 관측값을 크기 순서로 배열했을 때 가운데 위치하는 값
단,
1) 자료의 개수(n)가 홀수 일 때 : (n+1)/2 번째 관측값
2) 자료의 개수(n)가 짝수 일 때 : n/2 번째 관측값과 (n+1)/2 번째 관측값의 평균
예)
89 74 91 88 72 84 의 중앙값을 구하여라.
> 예제에 주어진 값을 크기 순서대로 배열하면 72 74 84 88 89 91 이며, 짝수개이다.
따라서 이 예제의 중앙값은 84와 88의 평균인 86이다.
중앙값에서는 관측값을 크기 순서로 배열할 때 관측값의 위치가 중요하고, 가운데 위치한 관측값 이외의 관측값들의 크기는 중요하지 않다.
따라서 평균과는 달리 중앙값은 관측값들의 변화에 민감하지 않고 특히 아주 큰 관측값이나 아주 작은 관측값(즉, outlier)에 영향을 받지 않는다.
3. 최빈값이란?
최빈값이란? 관측값 중에서 가장 자주 나오는 값
연속형 자료에서는 같은 값이 자주 나오는 경우는 흔하지 않기때문에,
이산형 자료 혹은 범주형 자료에서 흔히 사용된다.
연속형 자료에서는 자료를 일정한 범위로 범주화 한 후 사용한다.
예)
4 3 4 3 3 5 5 6 4 4 4 3
3 4 3 3 6 4 5 3 6 3 2 1
4 4 4 4 4 5 3 4 3 1 2 2
5 2 4 3 5 5 3 3 3 3 5 5
3 3 6 4 3 5 6 4 4 3 3 4
> 각 값에 대한 도수를 표로 나타내면 다음과 같다.
값 |
도수 |
1 |
2 |
2 |
4 |
3 |
21 |
4 |
18 |
5 |
10 |
6 |
5 |
> 위 표에 의하면 도수가 가장 큰 값은 3이기 때문에 최빈값은 3이다.
4. 평균 VS 중앙값 VS 최빈값
실제로는 평균이 가장 많이 쓰이고 다음으로 중앙값이 많이 쓰이며, 최빈값은 평균과 중앙값에 비해 자주쓰이지 않는다.
평균은 전체 관측값이 골고루 반영되므로 대표값으로서 가치가 있는 반면 극단적인 값에 영향을 많이 받는다.
예를들어,
1 1 1 1 1의 평균은 1이지만,
1 1 1 1 100 의 평균은 20.8이다.
단 하나의 숫자만 바뀌었을 뿐인데 평균은 20배 이상 커진 것을 볼 수 있다.
반면, 중앙값은 값의 크기가 아닌 순서에 의해 결정되기 때문에 극단적인 관측값에 영향을 받지 않는다.
따라서 데이터의 특성에따라 평균값을 쓸지, 중앙값으로 쓸지 잘 결정해야 한다.
5. R에서 평균, 중앙값, 최빈값
위의 예제들을 R에서는 다음과 같이 풀 수 있다.
1 2 3 4 5 6 7 8 9 10 | mean(c(89,74,91,88,72,84)) median(c(89,74,91,88,72,84)) names(which.max(table( c(4,3,4,3,3,5,5,6,4,4,4,3, 3,4,3,3,6,4,5,3,6,3,2,1, 4,4,4,4,4,5,3,4,3,1,2,2, 5,2,4,3,5,5,3,3,3,3,5,5, 3,3,6,4,3,5,6,4,4,3,3,4)))) | cs |
> 83
> 86
> "3"
'AI > 기초통계' 카테고리의 다른 글
[기초통계] 백분위수와 사분위수범위, quantile() in R (What is Percentile and Interquartile Range?) (2) | 2019.09.22 |
---|---|
[기초통계] 분산이란? 표준편차란? (What is Variance and Standard Deviation?) (0) | 2019.09.19 |
[기초통계] 범주형 자료 표현하는 방법 (categorical data) (0) | 2019.08.29 |
[기초통계] 수치형 자료(numerical data)와 범주형 자료(categorical data) (0) | 2019.08.12 |
[기초통계] 모집단(Population)과 표본집단(Sample) (2) | 2019.08.11 |