[기초통계] 모평균 비교 :: 독립인 모집단에서 표본의 크기가 작을 때 (1)

AI/기초통계

[기초통계] 모평균 비교 :: 독립인 모집단에서 표본의 크기가 작을 때 (1) :: t.test() in R

슈퍼짱짱 2019. 11. 26. 16:29

이전에 독립인 두 모집단에서 표본의 크기가 클 때 모평균 비교 검정하는 방법에 대해 알아보았다. 이번에는 표본의 크기가 작을 때 모평균 비교 검정하는 방법을 알아보겠다.

독립인 두 모집단에서 표본의 크기가 작을 때 모평균의 차 ( $\mu_{1} - \mu_{2}$ ) 비교

표본의 크기가 작을 때는 일반적으로 두 모집단에 대하여 정규분포 가정이 필요하다. 또 다른 가정은 ① 두 모집단의 표준편차가 같다고 가정하는 경우와 ② 두 모집단의 표준편차가 다르다고 가정하는 경우이다.

1. 두 모집단의 표준편차가 같다고 가정하는 경우

두 모집단의 표준편차가 같은지( $\sigma_{1} = \sigma_{2}$ ) 판단하기 위해 표본표준편차를 이용한다. 두 표본표준편차의 비율 $s_{1}/s_{2}$ 이 1에 가까우면 $\sigma_{1} = \sigma_{2}$ 의 가정이 적합하다고 판단한다. 실제로 사용하는 규칙 중 하나는 $1/2 \le s_{1} \le 2$ 이면 $\sigma_{1} = \sigma_{2}$ 의 가정이 적절하다고 판단한다.

* 표본의 크기가 작을 때 필요한 가정

1. 두 모집단이 모두 정규분포를 따른다.

2. 두 모집단의 표준편차가 일치한다. ( $\sigma_{1} = \sigma_{2} = \sigma$ )

위의 가정 하에 두 표본평균의 차 ( $\bar{X}-\bar{Y}$ )는 다음과 같이 정규분포를 따른다.

$(\bar{X}-\bar{Y}) \sim N(\mu_{1}-\mu_{2}, \sigma^2(\frac{1}{n_{1}}+\frac{1}{n_{2}}))$

두 모집단의 표준편차인 $\sigma$ 를 아는 경우에는 정규분포를 이용하여 추론할 수 있으나, 모를 때는 이를 추정해야 한다.

* $\sigma^2$ 의 합동추정량

$s^2_{p} = \frac{\sum_{i=1}^{n_{1}} (X_{i}-\bar{X})^2 + \sum_{i=1}^{n_{2}} (Y_{i}-\bar{Y})^2}{n_{1} + n_{2} - 2} = \frac{(n_{1} - 10)s_{1}^2 + (n_{2} - 1)s_{2}^2}{n_{1} + n_{2} - 2}$

* $n_{1} + n_{2} - 2\ (= (n_{1} - 1) + (n_{2} - 1))$ : 두 자유도의 합

위의 합동추정량을 이용하여 ( $\mu_{1} - \mu_{2}$ ) 추론에 이용되는 표준화된 확률변수는 다음과 같다.

두 정규모집단에서 독립적으로 추출된 두 표본으로부터 얻게되는 표준화된 확률변수는 자유도가 $n_{1} + n_{2} - 2$ 인 t 분포를 따른다.

$t = \frac{(\bar{X} - \bar{Y}) - (\mu_{1} - \mu_{2})}{s_{p} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}}} \sim t(n_{1} + n_{2} - 2)$

이를 바탕으로 ( $\mu_{1} - \mu_{2}$ )에 대한 신뢰구간은 다음과 같다.

* 표본의 크기가 작고 모표준편차가 같을 때 모평균의 차 ( $\mu_{1} - \mu_{2}$ )에 대한 신뢰구간

두 모집단이 모두 정규분포를 따르고 두 모표준편차가 같을 때, ( $\mu_{1} - \mu_{2}$ )에 대한 $100(1-\alpha)%$ 신뢰구간은

$(\bar{X} - \bar{Y}) \pm t_{\alpha/2}(n_{1} + n_{2} - 2) \times s_{p} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}}$

이다.

$H_{0} : \mu_{1} - \mu_{2} = \delta_{0}$ 에 대한 검정은 다음과 같다.

* 표본의 크기가 작고 모표준편차가 같을 때 $H_{0} : \mu_{1} - \mu_{2} = \delta_{0}$ 에 대한 검정

$H_{0} : \mu_{1} - \mu_{2} = \delta_{0}$ 에 대한 검정통계량은 다음과 같다.

$t = \frac{(\bar{X} - \bar{Y}) - \delta_{0}}{s_{p} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}}}$

검정통계량 $H_{0}$ 가 맞을 때 자요두가 $n_{1} + n_{2} - 2$ 인 t 분포를 따른다. 각 대립가설에 대하여 유의수준 $\alpha$ 를 갖는 기각역은 다음과 같다.

$H_{1} : \mu_{1} - \mu_{2} < \delta_{0} 일 때 \quad R : t \le -t_{\alpha}(n_{1}+n_{2}-2)$

$H_{1} : \mu_{1} - \mu_{2} > \delta_{0} 일 때 \quad R : t \ge t_{\alpha}(n_{1}+n_{2}-2)$

$H_{1} : \mu_{1} - \mu_{2} \ne \delta_{0} 일 때 \quad R : \left| t \right| \ge t_{\alpha/2}(n_{1}+n_{2}-2)$

독립인 모집단에서 표본의 크기가 작고 모표준편차가 같을 때 t.test() in R

예) 목초의 종류에 따른 우유생산량의 차이를 알아보기 위해 25마리의 젖소를 대상으로 3주 동안 임의로 추출된 12마리의 젖소에게는 인공적으로 건조시킨 목초를 주고, 13마리의 젖소에게는 들판에서 말린 목초를 주었다. 각 젖소의 일일 평균 우유생산량이 다음과 같이 주어졌다고 하자.

	우유생산량
들판에서 말린 목초	44	44	56	46	47	38	58	53	49	35	46	30	41
일공적으로 말린 목초	35	47	55	29	40	39	32	41	42	57	51	39

1. 일일 평균 우유 생산량 차에 대한 95% 신뢰구간을 구하라.

> x <- c(44, 44, 56, 46, 47, 38, 58, 53, 49, 35, 46, 30, 41)

> y <- c(35, 47, 55, 29, 40, 39, 32, 41, 42, 57, 51, 39)

> t.test(x, y, mu=mean(x)-mean(y), var.equal = T, conf.level = 0.95)

Two Sample t-test

data: x and y

t = 0, df = 23, p-value = 1

alternative hypothesis: true difference in means is not equal to 2.903846

95 percent confidence interval:

-4.020322 9.828015

sample estimates:

mean of x mean of y

45.15385 42.25000

$\bar{X} - \bar{Y}$ 에 대한 95% 신뢰구간은 (-4.02, 9.828) 이다.

이를 실제로 계산해보면 다음과 같다.

> x_n <- length(x)

> y_n <- length(y)

# 표본평균

> x_m <- mean(x)

> y_m <- mean(y)

# 표본표준편차

> x_s <- sd(x)

> y_s <- sd(y)

# 합동분산

> s <- sqrt(((x_n-1)*x_s^2 + (y_n-1)*y_s^2)/(x_n + y_n - 2))

# 신뢰구간

> l <- (x_m - y_m) - qt(0.025, 23, lower.tail = F)*s*sqrt((1/x_n)+(1/y_n))

> u <- (x_m - y_m) + qt(0.025, 23, lower.tail = F)*s*sqrt((1/x_n)+(1/y_n))

> l

[1] -4.020322

> u

[1] 9.828015

2. 들판에서 자연적으로 말린 목초를 사육하는 젖소가 인공적으로 말린 목초로 사육하는 젖소보다 우유생산량이 많다고 할 수 있는지 유의수준 0.05로 검정하라.

가설 : $H_{0} : \mu_{1} - \mu_{2} = 0\ 대\ H_{1} : \mu_{1} - \mu_{2} > 0$

> x <- c(44, 44, 56, 46, 47, 38, 58, 53, 49, 35, 46, 30, 41)

> y <- c(35, 47, 55, 29, 40, 39, 32, 41, 42, 57, 51, 39)

> t.test(x, y, alternative = "greater", var.equal = T, conf.level = 0.95)

Two Sample t-test

data: x and y

t = 0.86755, df = 23, p-value = 0.1973

alternative hypothesis: true difference in means is greater than 0

95 percent confidence interval:

-2.83279 Inf

sample estimates:

mean of x mean of y

45.15385 42.25000

p-value가 0.05보다 크기때문에 $H_{0}$ 를 기각할 수 없다. 즉, $\mu_{1}$ 가 $\mu_{2}$ 보다 크다고 할 근거가 충분하지 않다.

독립인 두 모집단에서 표본의 크기가 작을 때, 두 모집단의 표준편차가 다르다고 가정하는 경우는 다음 포스팅에 이어가도록 하겠다.

저작자표시

'AI > 기초통계' 카테고리의 다른 글

[기초통계] 모평균 비교 :: 짝비교 :: 독립이 아닌 모집단에서 :: t.test() in r (paired = T) (0)	2019.12.15
[기초통계] 모평균 비교 :: 독립인 모집단에서 표본의 크기가 작을 때 (2) :: t.test() in R (0)	2019.11.27
[기초통계] 모평균 비교 :: 독립인 두 모집단에서 표본의 크기가 클 때 비교 :: R에서 확인하기 :: t.test() in R (0)	2019.11.25
[기초통계] 모평균 비교 :: 두 모집단이 독립일때와 독립이 아닐 때 (0)	2019.11.24
[기초통계] t-distribution :: 표본의 크기가 작을 때 :: n에 따른 t분포 in R (4)	2019.11.23

현재글[기초통계] 모평균 비교 :: 독립인 모집단에서 표본의 크기가 작을 때 (1) :: t.test() in R

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

슈퍼짱짱