AI/기초통계

[기초통계] 분산이란? 표준편차란? (What is Variance and Standard Deviation?)

슈퍼짱짱 2019. 9. 19. 08:00
반응형

이전 포스팅에서는 자료의 분포를 파악하는 방법으로 중심의 측도를 소개했다.


>> 평균 vs 중앙값 vs 최빈값 바로가기


중심위치를 아는 것은 분포를 파악하는데 있어서 중요한 요소이기는 하지만, 중심 위치만으로는 분포를 파악하는데 부족한 점이 많다. 예를 들어, 다음 그림을 보자.


1
2
3
4
ggplot(data.frame(x = c(-5, 5)), aes(x=x)) +
  stat_function(fun=dnorm, args=list(mean=0, sd=2)) +
  stat_function(fun=dnorm, args=list(mean=0, sd=1)) +
  theme_bw() 
cs



두 분포의 중심위치는 같지만, 분포의 퍼진 정도가 다르다. 따라서 본 포스팅에서는 퍼진 정도의 측도로 분산, 표준편차, 범위, 사분위수에 대해 알아보겠다.




분산과 표준편차 (Variance and Standard Deviation)


퍼진 정도를 측정하는 것은 관측값이 중심위치에서 얼마나 멀리 떨어져 있는가를 알기 위한 것이다.

우선 평균과 관측값의 차이를 의미하는 편차에 대해 알아보겠다.


편차란? 각 관측값과 평균의 차이


즉, 관측값이 x1, x2, x3, ... xn이고 표본평균이 일 때, 각 관측값에 대한 편차는 (관측값 - 표본평균) = (xi - ) 이다.

이때, 모든 관측치의 편차의 합은 0이다.

예를 들어, 1 2 4 5 5 7 9 10 11의 평균은 6이고 각 관측치의 편차는 -5 -4 -2 -1 -1 1 3 4 5 이며 이들의 합은 0이다.

따라서 편차의 평균도 항상 0이기 때문에 편차의 평균은 자료의 퍼진 정도에 대한 측도로 적합하지 않다.


퍼진 정도의 측도로 편차의 크기가 중요하고 편차가 양수인지, 음수인지는 중요한 요소가 아니므로 편차에서 부호를 없앤 다음 퍼진 정도를 측정할 수 있다. 즉, 편차를 제곱하여 부호를 없앤 다음 그 값들을 더하여 (n-1)로 나누면 그것이 바로 표본분산이다. 이때, 표본분산은 n이 아닌 (n-1)로 나누는 이유는 자유도때문이며 이는 나중에 포스팅하도록 하겠다.


>> 모집단 vs 표본집단 바로가기


가 확률변수 X의 기댓값(혹은 평균)일 때, 분산 는 다음과 같이 계산한다.

 = 


모집단의 분산은 로 나타내고, 표본의 분산은 로 나타낸다. 은 모집단 분산의 추정치라고 할 수 있다. 표본 내의 어떤 변인 X가 가지는 모집단 분산의 추정치 는 다음과 같다.

분모를 n-1로 나누는 이유는 분산을 계산할 때 모평균이 아닌 표본 평균을 사용했기 때문에 모집단의 편의된 추정값(biased estimator)이 되므로, 분산이 불편 추정량(unbiased estimator)이 되도록 하기 위해서이다.


즉, 분산은 모집단에서의 퍼진정도, 표본분산은 표본집단에서의 퍼진 정도로, 표본분산으로 분산을 추정한다.


이때, 편차제곱합을 전개하면 다음과 같은 값을 구할 수 있다.

따라서 표본분산의 간편식은 다음과 같다.


표본분산의 단위는 관측값의 단위의 제곱으로, 관측값의 단위와 일치하지 않는다. 이 때, 표본분산의 제곱근은 관측값의 단위와 일치하는데, 이를 표본표준편차라 하고 보통 s라 표기한다.




분산 & 표준편차 in R


R에서는 분산과 표준편차를 다음과 같이 구할 수 있다.


1
2
3
4
a <- c(89, 74, 91, 88, 72, 84)
mean(a)
var(a)
sqrt(var(a))
cs


> mean(a)

[1] 83


> var(a) # 표본분산

[1] 65.6


> sqrt(var(a)) # 표본표준편차

[1] 8.099383




범위와 사분위수에 대해서는 다음 포스팅에서 알아보겠다.



반응형