AI/기초통계

[기초통계] 모평균 비교 :: 짝비교 :: 독립이 아닌 모집단에서 :: t.test() in r (paired = T)

슈퍼짱짱 2019. 12. 15. 15:39
반응형

이전에 두 모집단이 독립 일 때 모평균을 비교하는 방법에 대해 알아보았다.

이번에는 두 모집단이 독립이 아닐 때 모평균을 비교하는 방법인 짝비교에 대해 알아보겠다.


>> 모평균 비교 바로가기

>> 두 모집단이 독립일 때 :: 표본의 크기가 클 때

>> 두 모집단이 독립일 때 :: 표본의 크기가 작을 때(1)

>> 두 모집단이 독립일 때 :: 표본의 크기가 작을 때(2)


독립이 아닌 두 모집단에서 모평균 비교하는 방법 :: 짝비교


두 종류의 처리효과를 비교할 때, 반응값들의 차이가 처리효과의 차이에 의해서만 발생하도록 실험단위들이 비슷한 조건을 갖는 것이 이상적이다. 그러나, 실제로는 이 조건을 만족시키기가 어렵다. 예를 들어, 두 진통제의 효과를 비교하기 위해 성별, 나이, 건강상태 등이 모두 동일한 환자들을 동시에 여러 명 찾기 어렵다. 

또한, 동일한 조건의 환자들을 찾았다 해도, 이는 너무 한정된 그룹(예를 들면 20대 건강한 여자) 이기 때문에 바람직하지 않다.


따라서 ①실험단위들이 비슷해야 한다는 조건과 ②다양한 실험단위들을 대상으로 비교해야 한다는 서로 상충하는 상황에서 절충안으로 제시되는 것이 자료를 짝지워서 비교하는 방법이다.

 

실험단위들을 짝지워서 각각의 쌍으로 만드는 방법은 ①같은 쌍의 실험단위들을 서로 비슷하고, ②다른 쌍의 실험단위들과는 서로 다른 조건을 갖도록 하는 것이다.


이와 같은 방법을 짝비교라 한다.


* 짝비교를 시행할 때의 자료의 형태


 쌍

 처리1

처리2 

 

\(X_{1}\) 

\(Y_{1}\)  

\(D_{1} = X_{1}-Y_{1}\) 

2

\(X_{2}\)  

\(Y_{2}\)   

\(D_{1} = X_{1}-Y_{1}\)

...

 ...

... 

... 

4

\(X_{n}\) 

\(Y_{n}\)  

\(D_{1} = X_{1}-Y_{1}\)


차 \(D_{1}, D_{2}, ..., D_{n}\)의 표본평균과 분산은 다음과 같다.

$$ \bar{D} = \frac{1}{n} \sum_{i=1}^n D_{i}, s_{D}^2 = \frac{\sum_{i=1}^n (D_{i} - \bar{D})^2}{n-1} $$



여기서 주의할 점은 각 쌍 \((X_{i}, Y_{i})\)는 서로 독립이나, 각 쌍 내에서 \(X_{i}\)와 \(Y_{i}\)는 서로 독립이 아니다.

즉, 1번쌍과 2번쌍은 독립이나, \(X_{1}\)과 \(Y_{1}\)는 독립이 아니다.


실제로 \(X_{i}\)와 \(Y_{i}\)가 서로 높은 상관관계를 가질 경우에 짝비교 효과가 크다.


예를 들어, 두 치료제의 효과를 비교하고자 하는데, 두 치료제 모두 나이에 따라 치료효과의 차이가 많이 난다고 하자.(나이가 많을 수록 효과가 크다고 하자.) 이때 비슷한 나이끼리 짝을 지워 비교한다면, 나이가 어린 환자쌍에서는 \(X_{i}\)와 \(Y_{i}\)의 값이 모두 작은 경향이 있고, 나이가 많은 환자쌍에서는 두 값이 모두 큰 경향이 나타나서 \(X_{i}\)와 \(Y_{i}\)가 높은 상관관계를 갖게 된다. 

이때 각 쌍의 나이가 서로 비슷하기 때문에 나이에 의한 차이를 어느 정도 제거할 수 있고, 따라서 두 치료제의 치료효과의 차이를 쉽게 얻어낼 수가 있다.


이와 같이 순수한 처리효과의 차이를 설명하는 \([D_{i}]\)를 평균이 \(\delta\)이고 분산이 \(\sigma_{D}^2\)인 모집단으로부터 추출한 표본이라고 가정하자. 그러면 \(\delta\)는 두 처리효과의 차, 혹은 두 모평균의 차라 할 수 있다.

따라서 \(\delta=0\)이면 두 처리효과는 차이가 없는 것이고, \(\delta>0\)이라면 처리 1의 평균이 처리 2의 평균보다 더 크다고 할 수 있다.


이와 같이 \(\delta\)라는 한 모집단의 평균에 대하여 추론함으로써 두 처리효과를 비교할 수 있다. 

표본의 크기가 작을 때는 모집단이 정규분포라는 가정 하에 \(t\) 분포를 이용한다.


* 평균차(처리효과의 차) \(\delta\)에 대한 추론(표본의 크기가 작을 때)


두 반응값의 차 \(D_{1}, D_{2}, ..., D_{n}\)을 \(N(\delta, \sigma_{D}^2)\)로부터 추출한 표본이라고 하자. 이 때 표본의 평균과 표준편차는 다음과 같다.

$$ \bar{D} = \frac{1}{n} \sum_{i=1}^n D_{i}, s_{D}^2 = \frac{\sum_{i=1}^n (D_{i} - \bar{D})^2}{n-1} $$


(1) 모평균 \(\delta\)에 대한 \(100(1-\alpha)%\) 신뢰구간은 다음과 같다.

$$ \bar{D} \pm t_{\alpha/2}(n-1) \times s_{D}/\sqrt{n} $$

(2) 귀무가설 \(H_{0} : \delta = \delta_{0}\)에 대한 검정통계량은

$$ t = \frac{\bar{D}-\delta_{0}}{s_{D}/\sqrt{n}} $$

이고, \(H_{0}\)가 맞을 때 자유도가 (n-1)인 t분포를 따른다.


* 표본의 크기가 클 때는 정규분포를 이용한다.




짝비교 in R :: t.test()


예) 어떤 약의 부작용으로 혈압강하의 효과가 있는지 알아보기 위해 15명의 환자를 대상으로 약의 복용 전후의 이완기 혈압을 측정하였더니 그 결과가 다음과 같았다.


환자 

10 

11 

12 

13 

14 

15 

전 

70 

80 

72 

76 

76 

76 

72 

78 

82 

64 

74 

92 

74 

68 

84 

후 

68 

72 

62 

70 

58 

66 

68 

52 

64 

72 

74 

60 

74 

72 

74 


(1) 평균 혈압강하량에 대한 95% 신뢰구간을 구하라


> before <- c(70, 80, 72, 76, 76, 76, 72, 78, 82, 64, 74, 92, 74, 68, 84)

> after <- c(68, 72, 62, 70, 58, 66, 68, 52, 64, 72, 74, 60, 74, 72, 74)


> t.test(before, after, paired = T)


Paired t-test


data:  before and after

t = 3.1054, df = 14, p-value = 0.007749

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

  2.722083 14.877917

sample estimates:

mean of the differences 

                    8.8 


(2) 이 자료로부터 약이 혈압을 내린다는 주장을 할 수 있겠는가? 유의수준 1%로 검증하라.


$$ H_{0} : \delta=0\ 대\ H_{1} : \delta>0 $$


> t.test(before, after, paired = T, alternative = "greater", conf.level = 0.99)


Paired t-test


data:  before and after

t = 3.1054, df = 14, p-value = 0.003875

alternative hypothesis: true difference in means is greater than 0

99 percent confidence interval:

 1.362684      Inf

sample estimates:

mean of the differences 

                    8.8 


p-value가 0.01보다 작기 때문에 귀무가설을 기각하고 대립가설을 채택한다. 즉, 약이 혈압을 내린다는 주장을 할 수 있다.

 

반응형