이전에 독립인 두 모집단에서 표본의 크기가 클 때 모평균 비교 검정하는 방법에 대해 알아보았다. 이번에는 표본의 크기가 작을 때 모평균 비교 검정하는 방법을 알아보겠다.
>> 독립인 두 모집단에서 표본의 크기가 클 때 바로가기
독립인 두 모집단에서 표본의 크기가 작을 때 모평균의 차 (\(\mu_{1} - \mu_{2}\)) 비교
표본의 크기가 작을 때는 일반적으로 두 모집단에 대하여 정규분포 가정이 필요하다. 또 다른 가정은 ① 두 모집단의 표준편차가 같다고 가정하는 경우와 ② 두 모집단의 표준편차가 다르다고 가정하는 경우이다.
1. 두 모집단의 표준편차가 같다고 가정하는 경우
두 모집단의 표준편차가 같은지(\(\sigma_{1} = \sigma_{2}\)) 판단하기 위해 표본표준편차를 이용한다. 두 표본표준편차의 비율 \(s_{1}/s_{2}\)이 1에 가까우면 \(\sigma_{1} = \sigma_{2}\) 의 가정이 적합하다고 판단한다. 실제로 사용하는 규칙 중 하나는 \(1/2 \le s_{1} \le 2\)이면 \(\sigma_{1} = \sigma_{2}\)의 가정이 적절하다고 판단한다.
* 표본의 크기가 작을 때 필요한 가정
1. 두 모집단이 모두 정규분포를 따른다.
2. 두 모집단의 표준편차가 일치한다. (\(\sigma_{1} = \sigma_{2} = \sigma \))
위의 가정 하에 두 표본평균의 차 (\(\bar{X}-\bar{Y}\))는 다음과 같이 정규분포를 따른다.
$$ (\bar{X}-\bar{Y}) \sim N(\mu_{1}-\mu_{2}, \sigma^2(\frac{1}{n_{1}}+\frac{1}{n_{2}})) $$
두 모집단의 표준편차인 \(\sigma\)를 아는 경우에는 정규분포를 이용하여 추론할 수 있으나, 모를 때는 이를 추정해야 한다.
* \(\sigma^2\)의 합동추정량
$$ s^2_{p} = \frac{\sum_{i=1}^{n_{1}} (X_{i}-\bar{X})^2 + \sum_{i=1}^{n_{2}} (Y_{i}-\bar{Y})^2}{n_{1} + n_{2} - 2} = \frac{(n_{1} - 10)s_{1}^2 + (n_{2} - 1)s_{2}^2}{n_{1} + n_{2} - 2} $$
* \(n_{1} + n_{2} - 2\ (= (n_{1} - 1) + (n_{2} - 1))\) : 두 자유도의 합
위의 합동추정량을 이용하여 (\(\mu_{1} - \mu_{2}\)) 추론에 이용되는 표준화된 확률변수는 다음과 같다.
두 정규모집단에서 독립적으로 추출된 두 표본으로부터 얻게되는 표준화된 확률변수는 자유도가 \(n_{1} + n_{2} - 2\)인 t 분포를 따른다.
$$ t = \frac{(\bar{X} - \bar{Y}) - (\mu_{1} - \mu_{2})}{s_{p} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}}} \sim t(n_{1} + n_{2} - 2)$$
이를 바탕으로 (\(\mu_{1} - \mu_{2}\))에 대한 신뢰구간은 다음과 같다.
* 표본의 크기가 작고 모표준편차가 같을 때 모평균의 차 (\(\mu_{1} - \mu_{2}\))에 대한 신뢰구간
두 모집단이 모두 정규분포를 따르고 두 모표준편차가 같을 때, (\(\mu_{1} - \mu_{2}\))에 대한 \(100(1-\alpha)%\) 신뢰구간은
$$ (\bar{X} - \bar{Y}) \pm t_{\alpha/2}(n_{1} + n_{2} - 2) \times s_{p} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}} $$
이다.
\(H_{0} : \mu_{1} - \mu_{2} = \delta_{0}\)에 대한 검정은 다음과 같다.
* 표본의 크기가 작고 모표준편차가 같을 때 \(H_{0} : \mu_{1} - \mu_{2} = \delta_{0}\)에 대한 검정
\(H_{0} : \mu_{1} - \mu_{2} = \delta_{0}\)에 대한 검정통계량은 다음과 같다.
$$ t = \frac{(\bar{X} - \bar{Y}) - \delta_{0}}{s_{p} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}}} $$
검정통계량 \(H_{0}\)가 맞을 때 자요두가 \(n_{1} + n_{2} - 2\)인 t 분포를 따른다. 각 대립가설에 대하여 유의수준 \(\alpha\)를 갖는 기각역은 다음과 같다.
$$ H_{1} : \mu_{1} - \mu_{2} < \delta_{0} 일 때 \quad R : t \le -t_{\alpha}(n_{1}+n_{2}-2) $$
$$ H_{1} : \mu_{1} - \mu_{2} > \delta_{0} 일 때 \quad R : t \ge t_{\alpha}(n_{1}+n_{2}-2) $$
$$ H_{1} : \mu_{1} - \mu_{2} \ne \delta_{0} 일 때 \quad R : \left| t \right| \ge t_{\alpha/2}(n_{1}+n_{2}-2) $$
독립인 모집단에서 표본의 크기가 작고 모표준편차가 같을 때 t.test() in R
예) 목초의 종류에 따른 우유생산량의 차이를 알아보기 위해 25마리의 젖소를 대상으로 3주 동안 임의로 추출된 12마리의 젖소에게는 인공적으로 건조시킨 목초를 주고, 13마리의 젖소에게는 들판에서 말린 목초를 주었다. 각 젖소의 일일 평균 우유생산량이 다음과 같이 주어졌다고 하자.
|
우유생산량 |
||||||||||||
들판에서 말린 목초 |
44 |
44 |
56 | 46 | 47 | 38 | 58 | 53 | 49 | 35 | 46 | 30 |
41 |
일공적으로 말린 목초 |
35 |
47 |
55 |
29 |
40 |
39 |
32 |
41 |
42 |
57 |
51 |
39 |
|
1. 일일 평균 우유 생산량 차에 대한 95% 신뢰구간을 구하라.
> x <- c(44, 44, 56, 46, 47, 38, 58, 53, 49, 35, 46, 30, 41)
> y <- c(35, 47, 55, 29, 40, 39, 32, 41, 42, 57, 51, 39)
> t.test(x, y, mu=mean(x)-mean(y), var.equal = T, conf.level = 0.95)
Two Sample t-test
data: x and y
t = 0, df = 23, p-value = 1
alternative hypothesis: true difference in means is not equal to 2.903846
95 percent confidence interval:
-4.020322 9.828015
sample estimates:
mean of x mean of y
45.15385 42.25000
\(\bar{X} - \bar{Y}\)에 대한 95% 신뢰구간은 (-4.02, 9.828) 이다.
이를 실제로 계산해보면 다음과 같다.
> x_n <- length(x)
> y_n <- length(y)
# 표본평균
> x_m <- mean(x)
> y_m <- mean(y)
# 표본표준편차
> x_s <- sd(x)
> y_s <- sd(y)
# 합동분산
> s <- sqrt(((x_n-1)*x_s^2 + (y_n-1)*y_s^2)/(x_n + y_n - 2))
# 신뢰구간
> l <- (x_m - y_m) - qt(0.025, 23, lower.tail = F)*s*sqrt((1/x_n)+(1/y_n))
> u <- (x_m - y_m) + qt(0.025, 23, lower.tail = F)*s*sqrt((1/x_n)+(1/y_n))
> l
[1] -4.020322
> u
[1] 9.828015
2. 들판에서 자연적으로 말린 목초를 사육하는 젖소가 인공적으로 말린 목초로 사육하는 젖소보다 우유생산량이 많다고 할 수 있는지 유의수준 0.05로 검정하라.
가설 : \(H_{0} : \mu_{1} - \mu_{2} = 0\ 대\ H_{1} : \mu_{1} - \mu_{2} > 0\)
> x <- c(44, 44, 56, 46, 47, 38, 58, 53, 49, 35, 46, 30, 41)
> y <- c(35, 47, 55, 29, 40, 39, 32, 41, 42, 57, 51, 39)
> t.test(x, y, alternative = "greater", var.equal = T, conf.level = 0.95)
Two Sample t-test
data: x and y
t = 0.86755, df = 23, p-value = 0.1973
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
-2.83279 Inf
sample estimates:
mean of x mean of y
45.15385 42.25000
p-value가 0.05보다 크기때문에 \(H_{0}\)를 기각할 수 없다. 즉, \(\mu_{1}\)가 \(\mu_{2}\)보다 크다고 할 근거가 충분하지 않다.
독립인 두 모집단에서 표본의 크기가 작을 때, 두 모집단의 표준편차가 다르다고 가정하는 경우는 다음 포스팅에 이어가도록 하겠다.
'AI > 기초통계' 카테고리의 다른 글
[기초통계] 모평균 비교 :: 짝비교 :: 독립이 아닌 모집단에서 :: t.test() in r (paired = T) (0) | 2019.12.15 |
---|---|
[기초통계] 모평균 비교 :: 독립인 모집단에서 표본의 크기가 작을 때 (2) :: t.test() in R (0) | 2019.11.27 |
[기초통계] 모평균 비교 :: 독립인 두 모집단에서 표본의 크기가 클 때 비교 :: R에서 확인하기 :: t.test() in R (0) | 2019.11.25 |
[기초통계] 모평균 비교 :: 두 모집단이 독립일때와 독립이 아닐 때 (0) | 2019.11.24 |
[기초통계] t-distribution :: 표본의 크기가 작을 때 :: n에 따른 t분포 in R (4) | 2019.11.23 |