Loading [MathJax]/jax/output/CommonHTML/jax.js

AI/기초통계

[기초통계] 모평균 비교 :: 짝비교 :: 독립이 아닌 모집단에서 :: t.test() in r (paired = T)

슈퍼짱짱 2019. 12. 15. 15:39
반응형

이전에 두 모집단이 독립 일 때 모평균을 비교하는 방법에 대해 알아보았다.

이번에는 두 모집단이 독립이 아닐 때 모평균을 비교하는 방법인 짝비교에 대해 알아보겠다.


>> 모평균 비교 바로가기

>> 두 모집단이 독립일 때 :: 표본의 크기가 클 때

>> 두 모집단이 독립일 때 :: 표본의 크기가 작을 때(1)

>> 두 모집단이 독립일 때 :: 표본의 크기가 작을 때(2)


독립이 아닌 두 모집단에서 모평균 비교하는 방법 :: 짝비교


두 종류의 처리효과를 비교할 때, 반응값들의 차이가 처리효과의 차이에 의해서만 발생하도록 실험단위들이 비슷한 조건을 갖는 것이 이상적이다. 그러나, 실제로는 이 조건을 만족시키기가 어렵다. 예를 들어, 두 진통제의 효과를 비교하기 위해 성별, 나이, 건강상태 등이 모두 동일한 환자들을 동시에 여러 명 찾기 어렵다. 

또한, 동일한 조건의 환자들을 찾았다 해도, 이는 너무 한정된 그룹(예를 들면 20대 건강한 여자) 이기 때문에 바람직하지 않다.


따라서 ①실험단위들이 비슷해야 한다는 조건과 ②다양한 실험단위들을 대상으로 비교해야 한다는 서로 상충하는 상황에서 절충안으로 제시되는 것이 자료를 짝지워서 비교하는 방법이다.

 

실험단위들을 짝지워서 각각의 쌍으로 만드는 방법은 ①같은 쌍의 실험단위들을 서로 비슷하고, ②다른 쌍의 실험단위들과는 서로 다른 조건을 갖도록 하는 것이다.


이와 같은 방법을 짝비교라 한다.


* 짝비교를 시행할 때의 자료의 형태


 쌍

 처리1

처리2 

 

X1 

Y1  

D1=X1Y1 

2

X2  

Y2   

D1=X1Y1

...

 ...

... 

... 

4

Xn 

Yn  

D1=X1Y1


D1,D2,...,Dn의 표본평균과 분산은 다음과 같다.

ˉD=1nni=1Di,s2D=ni=1(DiˉD)2n1



여기서 주의할 점은 각 쌍 (Xi,Yi)는 서로 독립이나, 각 쌍 내에서 XiYi는 서로 독립이 아니다.

즉, 1번쌍과 2번쌍은 독립이나, X1Y1는 독립이 아니다.


실제로 XiYi가 서로 높은 상관관계를 가질 경우에 짝비교 효과가 크다.


예를 들어, 두 치료제의 효과를 비교하고자 하는데, 두 치료제 모두 나이에 따라 치료효과의 차이가 많이 난다고 하자.(나이가 많을 수록 효과가 크다고 하자.) 이때 비슷한 나이끼리 짝을 지워 비교한다면, 나이가 어린 환자쌍에서는 XiYi의 값이 모두 작은 경향이 있고, 나이가 많은 환자쌍에서는 두 값이 모두 큰 경향이 나타나서 XiYi가 높은 상관관계를 갖게 된다. 

이때 각 쌍의 나이가 서로 비슷하기 때문에 나이에 의한 차이를 어느 정도 제거할 수 있고, 따라서 두 치료제의 치료효과의 차이를 쉽게 얻어낼 수가 있다.


이와 같이 순수한 처리효과의 차이를 설명하는 [Di]를 평균이 δ이고 분산이 σ2D인 모집단으로부터 추출한 표본이라고 가정하자. 그러면 δ는 두 처리효과의 차, 혹은 두 모평균의 차라 할 수 있다.

따라서 δ=0이면 두 처리효과는 차이가 없는 것이고, δ>0이라면 처리 1의 평균이 처리 2의 평균보다 더 크다고 할 수 있다.


이와 같이 δ라는 한 모집단의 평균에 대하여 추론함으로써 두 처리효과를 비교할 수 있다. 

표본의 크기가 작을 때는 모집단이 정규분포라는 가정 하에 t 분포를 이용한다.


* 평균차(처리효과의 차) δ에 대한 추론(표본의 크기가 작을 때)


두 반응값의 차 D1,D2,...,DnN(δ,σ2D)로부터 추출한 표본이라고 하자. 이 때 표본의 평균과 표준편차는 다음과 같다.

ˉD=1nni=1Di,s2D=ni=1(DiˉD)2n1


(1) 모평균 δ에 대한 100(1α) 신뢰구간은 다음과 같다.

ˉD±tα/2(n1)×sD/n

(2) 귀무가설 H0:δ=δ0에 대한 검정통계량은

t=ˉDδ0sD/n

이고, H0가 맞을 때 자유도가 (n-1)인 t분포를 따른다.


* 표본의 크기가 클 때는 정규분포를 이용한다.




짝비교 in R :: t.test()


예) 어떤 약의 부작용으로 혈압강하의 효과가 있는지 알아보기 위해 15명의 환자를 대상으로 약의 복용 전후의 이완기 혈압을 측정하였더니 그 결과가 다음과 같았다.


환자 

10 

11 

12 

13 

14 

15 

전 

70 

80 

72 

76 

76 

76 

72 

78 

82 

64 

74 

92 

74 

68 

84 

후 

68 

72 

62 

70 

58 

66 

68 

52 

64 

72 

74 

60 

74 

72 

74 


(1) 평균 혈압강하량에 대한 95% 신뢰구간을 구하라


> before <- c(70, 80, 72, 76, 76, 76, 72, 78, 82, 64, 74, 92, 74, 68, 84)

> after <- c(68, 72, 62, 70, 58, 66, 68, 52, 64, 72, 74, 60, 74, 72, 74)


> t.test(before, after, paired = T)


Paired t-test


data:  before and after

t = 3.1054, df = 14, p-value = 0.007749

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

  2.722083 14.877917

sample estimates:

mean of the differences 

                    8.8 


(2) 이 자료로부터 약이 혈압을 내린다는 주장을 할 수 있겠는가? 유의수준 1%로 검증하라.


H0:δ=0  H1:δ>0


> t.test(before, after, paired = T, alternative = "greater", conf.level = 0.99)


Paired t-test


data:  before and after

t = 3.1054, df = 14, p-value = 0.003875

alternative hypothesis: true difference in means is greater than 0

99 percent confidence interval:

 1.362684      Inf

sample estimates:

mean of the differences 

                    8.8 


p-value가 0.01보다 작기 때문에 귀무가설을 기각하고 대립가설을 채택한다. 즉, 약이 혈압을 내린다는 주장을 할 수 있다.

 

반응형