이전에 독립인 두 모집단에서 표본의 크기가 클 때 모평균 비교 검정하는 방법에 대해 알아보았다. 이번에는 표본의 크기가 작을 때 모평균 비교 검정하는 방법을 알아보겠다.
>> 독립인 두 모집단에서 표본의 크기가 클 때 바로가기
독립인 두 모집단에서 표본의 크기가 작을 때 모평균의 차 (μ1−μ2) 비교
표본의 크기가 작을 때는 일반적으로 두 모집단에 대하여 정규분포 가정이 필요하다. 또 다른 가정은 ① 두 모집단의 표준편차가 같다고 가정하는 경우와 ② 두 모집단의 표준편차가 다르다고 가정하는 경우이다.
1. 두 모집단의 표준편차가 같다고 가정하는 경우
두 모집단의 표준편차가 같은지(σ1=σ2) 판단하기 위해 표본표준편차를 이용한다. 두 표본표준편차의 비율 s1/s2이 1에 가까우면 σ1=σ2 의 가정이 적합하다고 판단한다. 실제로 사용하는 규칙 중 하나는 1/2≤s1≤2이면 σ1=σ2의 가정이 적절하다고 판단한다.
* 표본의 크기가 작을 때 필요한 가정
1. 두 모집단이 모두 정규분포를 따른다.
2. 두 모집단의 표준편차가 일치한다. (σ1=σ2=σ)
위의 가정 하에 두 표본평균의 차 (ˉX−ˉY)는 다음과 같이 정규분포를 따른다.
(ˉX−ˉY)∼N(μ1−μ2,σ2(1n1+1n2))
두 모집단의 표준편차인 σ를 아는 경우에는 정규분포를 이용하여 추론할 수 있으나, 모를 때는 이를 추정해야 한다.
* σ2의 합동추정량
s2p=∑n1i=1(Xi−ˉX)2+∑n2i=1(Yi−ˉY)2n1+n2−2=(n1−10)s21+(n2−1)s22n1+n2−2
* n1+n2−2 (=(n1−1)+(n2−1)) : 두 자유도의 합
위의 합동추정량을 이용하여 (μ1−μ2) 추론에 이용되는 표준화된 확률변수는 다음과 같다.
두 정규모집단에서 독립적으로 추출된 두 표본으로부터 얻게되는 표준화된 확률변수는 자유도가 n1+n2−2인 t 분포를 따른다.
t=(ˉX−ˉY)−(μ1−μ2)sp√1n1+1n2∼t(n1+n2−2)
이를 바탕으로 (μ1−μ2)에 대한 신뢰구간은 다음과 같다.
* 표본의 크기가 작고 모표준편차가 같을 때 모평균의 차 (μ1−μ2)에 대한 신뢰구간
두 모집단이 모두 정규분포를 따르고 두 모표준편차가 같을 때, (μ1−μ2)에 대한 100(1−α) 신뢰구간은
(ˉX−ˉY)±tα/2(n1+n2−2)×sp√1n1+1n2
이다.
H0:μ1−μ2=δ0에 대한 검정은 다음과 같다.
* 표본의 크기가 작고 모표준편차가 같을 때 H0:μ1−μ2=δ0에 대한 검정
H0:μ1−μ2=δ0에 대한 검정통계량은 다음과 같다.
t=(ˉX−ˉY)−δ0sp√1n1+1n2
검정통계량 H0가 맞을 때 자요두가 n1+n2−2인 t 분포를 따른다. 각 대립가설에 대하여 유의수준 α를 갖는 기각역은 다음과 같다.
H1:μ1−μ2<δ0일때R:t≤−tα(n1+n2−2)
H1:μ1−μ2>δ0일때R:t≥tα(n1+n2−2)
H1:μ1−μ2≠δ0일때R:|t|≥tα/2(n1+n2−2)
독립인 모집단에서 표본의 크기가 작고 모표준편차가 같을 때 t.test() in R
예) 목초의 종류에 따른 우유생산량의 차이를 알아보기 위해 25마리의 젖소를 대상으로 3주 동안 임의로 추출된 12마리의 젖소에게는 인공적으로 건조시킨 목초를 주고, 13마리의 젖소에게는 들판에서 말린 목초를 주었다. 각 젖소의 일일 평균 우유생산량이 다음과 같이 주어졌다고 하자.
|
우유생산량 |
||||||||||||
들판에서 말린 목초 |
44 |
44 |
56 | 46 | 47 | 38 | 58 | 53 | 49 | 35 | 46 | 30 |
41 |
일공적으로 말린 목초 |
35 |
47 |
55 |
29 |
40 |
39 |
32 |
41 |
42 |
57 |
51 |
39 |
|
1. 일일 평균 우유 생산량 차에 대한 95% 신뢰구간을 구하라.
> x <- c(44, 44, 56, 46, 47, 38, 58, 53, 49, 35, 46, 30, 41)
> y <- c(35, 47, 55, 29, 40, 39, 32, 41, 42, 57, 51, 39)
> t.test(x, y, mu=mean(x)-mean(y), var.equal = T, conf.level = 0.95)
Two Sample t-test
data: x and y
t = 0, df = 23, p-value = 1
alternative hypothesis: true difference in means is not equal to 2.903846
95 percent confidence interval:
-4.020322 9.828015
sample estimates:
mean of x mean of y
45.15385 42.25000
ˉX−ˉY에 대한 95% 신뢰구간은 (-4.02, 9.828) 이다.
이를 실제로 계산해보면 다음과 같다.
> x_n <- length(x)
> y_n <- length(y)
# 표본평균
> x_m <- mean(x)
> y_m <- mean(y)
# 표본표준편차
> x_s <- sd(x)
> y_s <- sd(y)
# 합동분산
> s <- sqrt(((x_n-1)*x_s^2 + (y_n-1)*y_s^2)/(x_n + y_n - 2))
# 신뢰구간
> l <- (x_m - y_m) - qt(0.025, 23, lower.tail = F)*s*sqrt((1/x_n)+(1/y_n))
> u <- (x_m - y_m) + qt(0.025, 23, lower.tail = F)*s*sqrt((1/x_n)+(1/y_n))
> l
[1] -4.020322
> u
[1] 9.828015
2. 들판에서 자연적으로 말린 목초를 사육하는 젖소가 인공적으로 말린 목초로 사육하는 젖소보다 우유생산량이 많다고 할 수 있는지 유의수준 0.05로 검정하라.
가설 : H0:μ1−μ2=0 대 H1:μ1−μ2>0
> x <- c(44, 44, 56, 46, 47, 38, 58, 53, 49, 35, 46, 30, 41)
> y <- c(35, 47, 55, 29, 40, 39, 32, 41, 42, 57, 51, 39)
> t.test(x, y, alternative = "greater", var.equal = T, conf.level = 0.95)
Two Sample t-test
data: x and y
t = 0.86755, df = 23, p-value = 0.1973
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
-2.83279 Inf
sample estimates:
mean of x mean of y
45.15385 42.25000
p-value가 0.05보다 크기때문에 H0를 기각할 수 없다. 즉, μ1가 μ2보다 크다고 할 근거가 충분하지 않다.
독립인 두 모집단에서 표본의 크기가 작을 때, 두 모집단의 표준편차가 다르다고 가정하는 경우는 다음 포스팅에 이어가도록 하겠다.
'AI > 기초통계' 카테고리의 다른 글
[기초통계] 모평균 비교 :: 짝비교 :: 독립이 아닌 모집단에서 :: t.test() in r (paired = T) (0) | 2019.12.15 |
---|---|
[기초통계] 모평균 비교 :: 독립인 모집단에서 표본의 크기가 작을 때 (2) :: t.test() in R (0) | 2019.11.27 |
[기초통계] 모평균 비교 :: 독립인 두 모집단에서 표본의 크기가 클 때 비교 :: R에서 확인하기 :: t.test() in R (0) | 2019.11.25 |
[기초통계] 모평균 비교 :: 두 모집단이 독립일때와 독립이 아닐 때 (0) | 2019.11.24 |
[기초통계] t-distribution :: 표본의 크기가 작을 때 :: n에 따른 t분포 in R (4) | 2019.11.23 |