t-분포
이전에 표본의 크기가 큰 경우(30 이상)에 적용할 수 있는 모평균 \(\mu\)에 대한 추론방법을 알아보았다. 표본의 크기가 큰 경우에는 중심극한정리에 의해 표본평균 \(\bar{X}\)의 분포가 정규분포가 된다는 사실을 이용했다. 그러나, 표본의 크기가 작을 때에는 표본평균 \(\bar{X}\)의 분포는 모집단의 분포에 많은 영향을 받는다.
모집단의 분포가 \(N(\mu, \sigma^2)\)일 때 크기가 \(n\)인 표본의 평균 \(\bar{X}\)의 분포는 정확하게 \(N(\mu, \sigma^2/n)\)이다. 따라서 이를 표준화시키면
$$ \frac{\bar{X}-\mu}{\sigma/\sqrt n} ~ N(0, 1)$$
이 된다. 그러나 일반적으로 \(\sigma\)는 미지수이기 때문에 이를 표본의 표준편차 \(s\)로 추정하여 사용하게 되는데, 표본의 크기가 큰 경우에는 \(\sigma\) 대신 \(s\)로 대체해도 그 분포가 큰 영향을 받지 않는다.
그러나 표본의 크기가 작은 경우에는 \(\sigma\)를 \(s\)로 대체하게 되면 표준화된 확률변수의 분포는 표준정규분포가 아닌 t 분포를 따르게 된다.
* t 분포
정규모집단 \(N(\mu, \sigma^2\)으로부터 추출된 표본을 \(X_{1}, \cdots, X_{n}\)이라 할 때, 표본평균과 표본분산을
$$ \bar{X}=\frac{\sum X_{i}}{n}, s^2=\frac{\sum (X_{i}-\bar{X})^2}{n-1}$$
이라 정의하면, 표준화된 확률변수
$$ t=\frac{\bar{X}-\mu}{s/\sqrt n} $$
는 자유도가 (n-1)인 t 분포를 따른다고 하고, 이를 기호로 t(n-1)로 표현한다.
t 분포는 표준정규분포와 같이 0을 중심으로 대칭이고, 종모양이다. 표준정규분포보다 두꺼운 꼬리를 갖는다. 자유도가 증가하면 표준정규분포에 가까워진다.
표본의 크기가 작을 땐 정규분포 대신 t 분포로 검정통계량을 구하고 검정을 진행하면 된다.
n에 따른 t분포 모양 in R
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 | library("RColorBrewer") make_t <- function(n){ result <- c() for(i in 1:2000){ t <- rnorm(n) t.m <- mean(t) t.s <- sqrt(sum((t-t.m)^2)/(n-1)) result <- c(result, t.m/(t.s/sqrt(n))) } return(result) } x <- seq(-5, 5, length=2000) z <- dnorm(x) t3 <- make_t(3) t5 <- make_t(5) t10 <- make_t(10) t30 <- make_t(30) t50 <- make_t(50) col <- brewer.pal(n = 5, name = "Reds") plot(x,z, type = "l", ylim=c(0,0.5)) lines(density(t3), col = col[1], lwd=2) lines(density(t5), col = col[2], lwd=2) lines(density(t10), col = col[3], lwd=2) lines(density(t30), col = col[4], lwd=2) lines(density(t50), col = col[5], lwd=2) | cs |
n이 작을 때는 표준정규분포(black)에 비해 꼬리가 두껍고 종의 높이가 낮다. 그러나 n이 커지면서 점점 표준정규분포가 비슷해 짐을 알 수 있다.
'AI > 기초통계' 카테고리의 다른 글
[기초통계] 모평균 비교 :: 독립인 두 모집단에서 표본의 크기가 클 때 비교 :: R에서 확인하기 :: t.test() in R (0) | 2019.11.25 |
---|---|
[기초통계] 모평균 비교 :: 두 모집단이 독립일때와 독립이 아닐 때 (0) | 2019.11.24 |
[기초통계] 유의확률이란? P-value란? (0) | 2019.11.22 |
[기초통계] 기각역이란? :: 제 1종오류와 제 2종오류의 관계 :: 단측검정, 양측검정 (0) | 2019.11.21 |
[기초통계] 가설검정에서 오류란? :: 제 1종오류란? 제 2종오류란? :: 제 1종오류가 제 2종오류보다 중요한 이유 (0) | 2019.11.14 |