AI/기초통계

[기초통계] t-distribution :: 표본의 크기가 작을 때 :: n에 따른 t분포 in R

슈퍼짱짱 2019. 11. 23. 08:00
반응형

t-분포


이전에 표본의 크기가 큰 경우(30 이상)에 적용할 수 있는 모평균 \(\mu\)에 대한 추론방법을 알아보았다. 표본의 크기가 큰 경우에는 중심극한정리에 의해 표본평균 \(\bar{X}\)의 분포가 정규분포가 된다는 사실을 이용했다. 그러나, 표본의 크기가 작을 때에는 표본평균 \(\bar{X}\)의 분포는 모집단의 분포에 많은 영향을 받는다. 


모집단의 분포가 \(N(\mu, \sigma^2)\)일 때 크기가 \(n\)인 표본의 평균 \(\bar{X}\)의 분포는 정확하게 \(N(\mu, \sigma^2/n)\)이다. 따라서 이를 표준화시키면 

$$ \frac{\bar{X}-\mu}{\sigma/\sqrt n} ~ N(0, 1)$$

이 된다. 그러나 일반적으로 \(\sigma\)는 미지수이기 때문에 이를 표본의 표준편차 \(s\)로 추정하여 사용하게 되는데, 표본의 크기가 큰 경우에는 \(\sigma\) 대신 \(s\)로 대체해도 그 분포가 큰 영향을 받지 않는다.


그러나 표본의 크기가 작은 경우에는 \(\sigma\)를 \(s\)로 대체하게 되면 표준화된 확률변수의 분포는 표준정규분포가 아닌 t 분포를 따르게 된다.


* t 분포


정규모집단 \(N(\mu, \sigma^2\)으로부터 추출된 표본을 \(X_{1}, \cdots, X_{n}\)이라 할 때, 표본평균과 표본분산을

$$ \bar{X}=\frac{\sum X_{i}}{n}, s^2=\frac{\sum (X_{i}-\bar{X})^2}{n-1}$$

이라 정의하면, 표준화된 확률변수

$$ t=\frac{\bar{X}-\mu}{s/\sqrt n} $$

는 자유도가 (n-1)인 t 분포를 따른다고 하고, 이를 기호로 t(n-1)로 표현한다.


t 분포는 표준정규분포와 같이 0을 중심으로 대칭이고, 종모양이다. 표준정규분포보다 두꺼운 꼬리를 갖는다. 자유도가 증가하면 표준정규분포에 가까워진다. 


표본의 크기가 작을 땐 정규분포 대신 t 분포로 검정통계량을 구하고 검정을 진행하면 된다.




n에 따른 t분포 모양 in R


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
library("RColorBrewer")
 
make_t <- function(n){
  result <- c()
  for(i in 1:2000){
    t <- rnorm(n)
    t.m <- mean(t)
    t.s <- sqrt(sum((t-t.m)^2)/(n-1))
    result <- c(result, t.m/(t.s/sqrt(n)))
  }
  return(result)
}
 
 
<- seq(-55length=2000)
<- dnorm(x)
 
t3 <- make_t(3)
t5 <- make_t(5)
t10 <- make_t(10)
t30 <- make_t(30)
t50 <- make_t(50)
 
col <- brewer.pal(n = 5, name = "Reds")
 
plot(x,z, type = "l", ylim=c(0,0.5))
lines(density(t3), col = col[1], lwd=2)
lines(density(t5), col = col[2], lwd=2)
lines(density(t10), col = col[3], lwd=2)
lines(density(t30), col = col[4], lwd=2)
lines(density(t50), col = col[5], lwd=2)
cs




n이 작을 때는 표준정규분포(black)에 비해 꼬리가 두껍고 종의 높이가 낮다. 그러나 n이 커지면서 점점 표준정규분포가 비슷해 짐을 알 수 있다.


반응형