AI/기초통계

표본평균의 분포 & 중심극한정리 in R

슈퍼짱짱 2019. 10. 19. 08:00
반응형

표본평균의 분포


모평균에 대한 추론은 표본의 평균 와 그 분포를 이용한다.

평균이 μ이고 분산이 σ^2인 모집단으로부터 크기가 n인 표본 X1, X2, ..., Xn을 추출했을 때, 표본평균 X̄의 기댓값과 분산은 다음과 같다.


표본평균 분포의 중심은 모집단의 중심 μ와 일치한다. 그러나 표집분포의 퍼짐 정도를 측정하는 표준편차는 표본의 크기에도 영향을 받는다. 즉, 표본의 크기 n이 증가함에 따라 표본평균의 표준편차는 n의 제곱근에 반비례해서 감소하는데 이는 표본평균의 분포가 μ를 중심으로 더욱 집중됨을 나타낸다.


예를 들어, 표본의 크기를 100배 늘리면, 표본평균의 표준편차는 1/10으로 감소하여 표집분포가 μ를 중심으로 더욱 집중된다.




중심극한정리란?


모집단의 분포가 정규분포가 아닌 경우 X̄의 정확한 분포는 모집단의 분포에 따라 다르게 나타난다. 그러나, 표본의 크기 n이 큰 경우에는 X̄의 분포는 모집단의 분포와 무관하게 근사적으로 정규분포를 따르게 된다. 이를 중심극한정리라 한다.


* 중심극한정리


모집단의 평균이 μ이고 분산이 σ^2일 때, 임의 추출된 표본의 표본평균 X̄는 표본의 크기 n이 큰 경우(보통 30 이상) 근사적으로 정규분포를 따르게 되며, 그 평균은 μ이고 표준편차는 σ/n가 된다. 이를 표준화하면 다음과 같다.




R에서 중심극한정리 확인하기


uniform분포에서 n이 10일때, 30일때, 100일때로 나누어 정말 n이 커지면 정규분포에 근사하는지 확인해보겠다.

-1 ~ 1에서 30개를 sampling해 평균을 냈다. Q-Q plot으로 정규성도 확인해보겠다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
fun <- function(n){
  ex <- c()
  for(i in 1:n){
    ex <- c(ex,mean(runif(30,-1,1)))
  }
  
  par(mfrow = c(1,2))
  hist(ex, prob = T, col = "light grey",border = "grey", main = NULL)
  lines(density(ex))
  
  qqnorm(ex, main = "")
  qqline(ex, col="red")
}
 
cs


1. n=10


> fun(10)




2. n=30


> fun(30)




3. n=100


> fun(100)




n이 커질 수록 점점 0 (-1 ~ 1 uniform 분포의 평균) 으로 모이며, 종모양이 되는 것을 볼 수 있다.


반응형