AI/기초통계

[기초통계] 모평균 비교 :: 독립인 모집단에서 표본의 크기가 작을 때 (1) :: t.test() in R

슈퍼짱짱 2019. 11. 26. 16:29
반응형

이전에 독립인 두 모집단에서 표본의 크기가 클 때 모평균 비교 검정하는 방법에 대해 알아보았다. 이번에는 표본의 크기가 작을 때 모평균 비교 검정하는 방법을 알아보겠다.


>> 독립인 두 모집단에서 표본의 크기가 클 때 바로가기


독립인 두 모집단에서 표본의 크기가 작을 때 모평균의 차 (\(\mu_{1} - \mu_{2}\)) 비교


표본의 크기가 작을 때는 일반적으로 두 모집단에 대하여 정규분포 가정이 필요하다. 또 다른 가정은 ① 두 모집단의 표준편차가 같다고 가정하는 경우② 두 모집단의 표준편차가 다르다고 가정하는 경우이다. 




1. 두 모집단의 표준편차가 같다고 가정하는 경우


두 모집단의 표준편차가 같은지(\(\sigma_{1} = \sigma_{2}\)) 판단하기 위해 표본표준편차를 이용한다. 두 표본표준편차의 비율 \(s_{1}/s_{2}\)이 1에 가까우면 \(\sigma_{1} = \sigma_{2}\) 의 가정이 적합하다고 판단한다. 실제로 사용하는 규칙 중 하나는 \(1/2 \le s_{1} \le 2\)이면 \(\sigma_{1} = \sigma_{2}\)의 가정이 적절하다고 판단한다.


* 표본의 크기가 작을 때 필요한 가정


1. 두 모집단이 모두 정규분포를 따른다.

2. 두 모집단의 표준편차가 일치한다. (\(\sigma_{1} = \sigma_{2} = \sigma \))


위의 가정 하에 두 표본평균의 차 (\(\bar{X}-\bar{Y}\))는 다음과 같이 정규분포를 따른다.

$$ (\bar{X}-\bar{Y}) \sim N(\mu_{1}-\mu_{2}, \sigma^2(\frac{1}{n_{1}}+\frac{1}{n_{2}})) $$ 


두 모집단의 표준편차인 \(\sigma\)를 아는 경우에는 정규분포를 이용하여 추론할 수 있으나, 모를 때는 이를 추정해야 한다.


* \(\sigma^2\)의 합동추정량


$$ s^2_{p} = \frac{\sum_{i=1}^{n_{1}} (X_{i}-\bar{X})^2 + \sum_{i=1}^{n_{2}} (Y_{i}-\bar{Y})^2}{n_{1} + n_{2} - 2} = \frac{(n_{1} - 10)s_{1}^2 + (n_{2} - 1)s_{2}^2}{n_{1} + n_{2} - 2} $$


* \(n_{1} + n_{2} - 2\ (= (n_{1} - 1) + (n_{2} - 1))\) : 두 자유도의 합


위의 합동추정량을 이용하여 (\(\mu_{1} - \mu_{2}\)) 추론에 이용되는 표준화된 확률변수는 다음과 같다.


두 정규모집단에서 독립적으로 추출된 두 표본으로부터 얻게되는 표준화된 확률변수는 자유도가 \(n_{1} + n_{2} - 2\)인 t 분포를 따른다.

$$ t = \frac{(\bar{X} - \bar{Y}) - (\mu_{1} - \mu_{2})}{s_{p} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}}} \sim t(n_{1} + n_{2} - 2)$$


이를 바탕으로 (\(\mu_{1} - \mu_{2}\))에 대한 신뢰구간은 다음과 같다.


* 표본의 크기가 작고 모표준편차가 같을 때 모평균의 차 (\(\mu_{1} - \mu_{2}\))에 대한 신뢰구간


두 모집단이 모두 정규분포를 따르고 두 모표준편차가 같을 때, (\(\mu_{1} - \mu_{2}\))에 대한 \(100(1-\alpha)%\) 신뢰구간은

$$ (\bar{X} - \bar{Y}) \pm t_{\alpha/2}(n_{1} + n_{2} - 2) \times s_{p} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}} $$

이다.


\(H_{0} : \mu_{1} - \mu_{2} = \delta_{0}\)에 대한 검정은 다음과 같다.


* 표본의 크기가 작고 모표준편차가 같을 때 \(H_{0} : \mu_{1} - \mu_{2} = \delta_{0}\)에 대한 검정


\(H_{0} : \mu_{1} - \mu_{2} = \delta_{0}\)에 대한 검정통계량은 다음과 같다.

$$ t = \frac{(\bar{X} - \bar{Y}) - \delta_{0}}{s_{p} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}}} $$


검정통계량 \(H_{0}\)가 맞을 때 자요두가 \(n_{1} + n_{2} - 2\)인 t 분포를 따른다. 각 대립가설에 대하여 유의수준 \(\alpha\)를 갖는 기각역은 다음과 같다.

$$ H_{1} : \mu_{1} - \mu_{2} < \delta_{0} 일 때 \quad R : t \le -t_{\alpha}(n_{1}+n_{2}-2) $$

$$ H_{1} : \mu_{1} - \mu_{2} > \delta_{0} 일 때 \quad R : t \ge t_{\alpha}(n_{1}+n_{2}-2) $$

$$ H_{1} : \mu_{1} - \mu_{2} \ne \delta_{0} 일 때 \quad R : \left| t \right| \ge t_{\alpha/2}(n_{1}+n_{2}-2) $$




독립인 모집단에서 표본의 크기가 작고 모표준편차가 같을 때 t.test() in R 


예) 목초의 종류에 따른 우유생산량의 차이를 알아보기 위해 25마리의 젖소를 대상으로 3주 동안 임의로 추출된 12마리의 젖소에게는 인공적으로 건조시킨 목초를 주고, 13마리의 젖소에게는 들판에서 말린 목초를 주었다. 각 젖소의 일일 평균 우유생산량이 다음과 같이 주어졌다고 하자.


 

 우유생산량

 들판에서 말린 목초

 44

44

56

46

47

38

58

53

49

35

46

30

41 

 일공적으로 말린 목초

 35

47 

55 

29 

40 

39 

32 

41 

42 

57 

51 

39 

 



1. 일일 평균 우유 생산량 차에 대한 95% 신뢰구간을 구하라.


> x <- c(44, 44, 56, 46, 47, 38, 58, 53, 49, 35, 46, 30, 41)

> y <- c(35, 47, 55, 29, 40, 39, 32, 41, 42, 57, 51, 39)


> t.test(x, y, mu=mean(x)-mean(y), var.equal = T, conf.level = 0.95)


Two Sample t-test


data:  x and y

t = 0, df = 23, p-value = 1

alternative hypothesis: true difference in means is not equal to 2.903846

95 percent confidence interval:

  -4.020322  9.828015

sample estimates:

  mean of x mean of y 

45.15385  42.25000


\(\bar{X} - \bar{Y}\)에 대한 95% 신뢰구간은 (-4.02, 9.828) 이다.


이를 실제로 계산해보면 다음과 같다. 


> x_n <- length(x)

> y_n <- length(y)


# 표본평균

> x_m <- mean(x)

> y_m <- mean(y)


# 표본표준편차

> x_s <- sd(x)

> y_s <- sd(y)


# 합동분산

> s <- sqrt(((x_n-1)*x_s^2 + (y_n-1)*y_s^2)/(x_n + y_n - 2))


# 신뢰구간

> l <- (x_m - y_m) - qt(0.025, 23, lower.tail = F)*s*sqrt((1/x_n)+(1/y_n))

> u <- (x_m - y_m) + qt(0.025, 23, lower.tail = F)*s*sqrt((1/x_n)+(1/y_n))


> l

[1] -4.020322

> u

[1] 9.828015




2. 들판에서 자연적으로 말린 목초를 사육하는 젖소가 인공적으로 말린 목초로 사육하는 젖소보다 우유생산량이 많다고 할 수 있는지 유의수준 0.05로 검정하라.


가설 : \(H_{0} : \mu_{1} - \mu_{2} = 0\ 대\ H_{1} : \mu_{1} - \mu_{2} > 0\)


> x <- c(44, 44, 56, 46, 47, 38, 58, 53, 49, 35, 46, 30, 41)

> y <- c(35, 47, 55, 29, 40, 39, 32, 41, 42, 57, 51, 39)


> t.test(x, y, alternative = "greater", var.equal = T, conf.level = 0.95)


Two Sample t-test


data:  x and y

t = 0.86755, df = 23, p-value = 0.1973

alternative hypothesis: true difference in means is greater than 0

95 percent confidence interval:

 -2.83279      Inf

sample estimates:

mean of x mean of y 

 45.15385  42.25000 


p-value가 0.05보다 크기때문에 \(H_{0}\)를 기각할 수 없다. 즉, \(\mu_{1}\)가 \(\mu_{2}\)보다 크다고 할 근거가 충분하지 않다.




독립인 두 모집단에서 표본의 크기가 작을 때, 두 모집단의 표준편차가 다르다고 가정하는 경우는 다음 포스팅에 이어가도록 하겠다.



반응형