[기초통계] 모평균 비교 :: 독립인 모집단에서 표본의 크기가 작을 때 (2)

AI/기초통계

[기초통계] 모평균 비교 :: 독립인 모집단에서 표본의 크기가 작을 때 (2) :: t.test() in R

슈퍼짱짱 2019. 11. 27. 12:03

독립인 두 모집단에서 표본의 크기가 작을 때 모평균의 차 ( $\mu_{1} - \mu_{2}$ ) 비교

표본의 크기가 작을 때는 일반적으로 두 모집단에 대하여 정규분포 가정이 필요하다. 또 다른 가정은 ① 두 모집단의 표준편차가 같다고 가정하는 경우와 ② 두 모집단의 표준편차가 다르다고 가정하는 경우이다.

이전 포스팅에서 독립인 두 모집단에서 표본의 크기가 작을 때, 모표준편차가 같은 경우에 대한 모평균 비교 방법에 대해 알아보았다. 이번에는 모표준편차가 다를 때 모평균 비교 검정 방법에 대해 알아보겠다.

>> 독립인 두 모집단에서 표본의 크기가 작을 때 바로가기

2. 두 모집단의 표준편차가 다른 경우

* 독립인 두 모집단에서 표본의 크기가 작고 두 모표준편차가 다를 때, 모평균의 차 ( $\mu_{1} - \mu_{2}$ )에 대한 추론

모평균의 차 ( $\mu_{1} - \mu_{2}$ )에 대한 $100(1-\alpha)%$ 신뢰구간은 근사적으로

$(\bar{X} - \bar{Y}) \pm t^*_{\alpha/2} \times \sqrt{\frac{s^2_{1}}{n_{1}} + \frac{s^2_{2}}{n_{2}}}$

이다. 이 때 $t^*$ 의 자유도는 $(n_{1}-1)$ 과 $(n_{2}-1)$ 중 작은 값이다.

가설 $H_{0} : \mu_{1} - \mu_{2} = \delta_{0}$ 에 대한 검정통계량은 다음과 같다.

$t^* = \frac{(\bar{X} - \bar{Y}) - \delta_{0}}{\sqrt{\frac{s^2_{1}}{n_{1}} + \frac{s^2_{2}}{n_{2}}}}$

이 검정통계량의 분포는 $H_{0}$ 가 맞을 때 근사적으로 자유도가 $(n_{1}-1)$ 과 $(n_{2}-1)$ 중 작은 값인 t 분포를 따른다.

독립인 두 모집단에서 표본의 크기가 작고, 두 모표준편차가 다를 때 t.test() in R

예)

$X \sim N(0, 1)$ 에서 13개의 표본을, $Y \sim N(0, 3^2)$ 에서 11개의 표본을 수집했다. 이 때 $\mu_{1} - \mu_{2}$ 에 대해 다음 가설을 검정하라.

$H_{0} : \mu_{1} - \mu_{2} = 0\ 대\ H_{1} : \mu_{1} - \mu_{2} \ne 0$

> x_n <- 13

> y_n <- 11

# sampling

> x <- rnorm(x_n, 0, 1)

> y <- rnorm(y_n, 0, 3)

# 등분산성 test : ratio of variances is not equal to 1

> var.test(x, y)

F test to compare two variances

data: x and y

F = 0.27948, num df = 12, denom df = 10, p-value = 0.04036

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

0.07718541 0.94285454

sample estimates:

ratio of variances

0.2794841

> t.test(x, y, alternative = "two.sided", mu = 0, var.equal = FALSE, conf.level = 0.95)

Welch Two Sample t-test

data: x and y

t = -1.6276, df = 14.608, p-value = 0.125

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-2.9925511 0.4045788

sample estimates:

mean of x mean of y

0.2249197 1.5189059

검정 결과 p-value가 0.05보다 크므로 $H_{0}$ 를 기각할 수 없다. 즉, 두 집단의 평균이 다르다고 할 근거가 충분하지 않다. $\mu_{1} - \mu_{2}$ 에 대한 신뢰구간도 (-2.99, 0.40)으로 0을 포함하는 것을 볼 수 있다.

* Welch test 자유도

표본의 크기가 작을 때, 두 모표준편차가 같으면 Student's T test를, 다르면 Welch's T test를 한다. 책에서는 Welch`s T test의 자유도가 $(n_{1}-1)$ 과 $(n_{2}-1)$ 중 작은 값이라 나와있지만, 실제 통계프로그램에서 Welch`s T test의 자유도는 다음과 같다.

$df = \frac{(s^2_{1}/n_{1} + s^2_{2}/n_{2})^2}{(s_{1}^2/n_{1})^2/(n_{1}-1) + (s_{2}^2/n_{2})^2/(n_{2}-1)}$

> df <- ((x_s^2/x_n) + (y_s^2/y_n))^2 / ((x_s^2/x_n)^2/(x_n-1) + (y_s^2/y_n)^2/(y_n-1))

> df

[1] 14.60818

검정통계량 t 와 신뢰구간을 직접 계산하면 다음과 같다.

# 평균

> x_m <- mean(x)

> y_m <- mean(y)

# 표준편차

> x_s <- sd(x)

> y_s <- sd(y)

# 검정통계량 t

> t <- (x_m - y_m)/sqrt((x_s^2/x_n) + (y_s^2/y_n))

> t

[1] -1.627564

# 자유도

> df <- ((x_s^2/x_n) + (y_s^2/y_n))^2 / ((x_s^2/x_n)^2/(x_n-1) + (y_s^2/y_n)^2/(y_n-1))

# 신뢰구간

> l <- (x_m-y_m) - qt(0.025, df, lower.tail = F)*sqrt((x_s^2/x_n) + (y_s^2/y_n))

> u <- (x_m-y_m) + qt(0.025, df, lower.tail = F)*sqrt((x_s^2/x_n) + (y_s^2/y_n))

> l

[1] -2.992551

> u

[1] 0.4045788

저작자표시

'AI > 기초통계' 카테고리의 다른 글

분류 모델 성능 평가 지표 - Confusion Matrix란? :: 정확도(Accuracy), 정밀도(Precision), 재현도(Recall), F1 Score (16)	2020.04.07
[기초통계] 모평균 비교 :: 짝비교 :: 독립이 아닌 모집단에서 :: t.test() in r (paired = T) (0)	2019.12.15
[기초통계] 모평균 비교 :: 독립인 모집단에서 표본의 크기가 작을 때 (1) :: t.test() in R (0)	2019.11.26
[기초통계] 모평균 비교 :: 독립인 두 모집단에서 표본의 크기가 클 때 비교 :: R에서 확인하기 :: t.test() in R (0)	2019.11.25
[기초통계] 모평균 비교 :: 두 모집단이 독립일때와 독립이 아닐 때 (0)	2019.11.24

현재글[기초통계] 모평균 비교 :: 독립인 모집단에서 표본의 크기가 작을 때 (2) :: t.test() in R

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

슈퍼짱짱