앞 서 가설검정과 가설검정시 범할 수 있는 오류에 대해 알아보았다.
이번에는 귀무가설을 기각하는 구간인 기각역에 대해 알아보겠다.
기각역이란?
우리는 모집단의 일부분인 표본으로부터 검정의 결론, 즉, H0을 기각하거나, H0을 기각하지 않고 유지하는 결정을 내리게 되는데, 이 때 이용되는 표본의 함수, 즉 통계량을 검정통계량이라 한다.
콜레스테롤 수치를 낮춰주기 위해 개발한 신약이 효과가 있는지 없는지 검정하는 예시에서 약 복용 후 실험자들의 콜레스테롤 수치의 평균 ˉX가 검정통계량이 된다.
약을 복용 전 콜레스테롤 수치의 평균이 200이라 하자.
H0 : 신약이 효과가 없다. : μ=200
H1 : 신약이 효과가 있다. : μ<200
개발된 약이 정말로 효과가 있기 위해서는 이 ˉX의 값이 200에 비해 상당히 작아야 한다. 즉, 적당한 c에 대해 ˉX<c 일 때 H0을 기각한다. 이렇게 ˉX가 취하는 구간 중에서 H0을 기각하게 하는 구간을 기각역(critical region)이라 하는데, 이를 R:ˉX≤c로 표현하고, ˉX가 c이하이면 H0를 기각한다.
기각역이란? ˉX가 취하는 구간 중에서 H0을 기각하게 하는 구간
가설검정의 결과는 오류를 범할 가능성이 존재한다. 따라서 가장 바람직한 기각역이란 제 1종오류(α)와 제 2종오류(β)를 최소화시키는 값이다.
그러나 α를 줄이려면 β가 커지게 되고, β를 줄이려면 α가 커지게된다.
그 이유를 위의 예시로 설명하면,
H0가맞을때(μ=200)α=P[ˉX≤c]
H1가맞을때(μ<200)β=P[ˉX>c]
가 된다.
H1가 맞을 때 μ=195라 하자. 즉, 개발된 약이 콜레스테롤 수치를 5(mg/dl) 만큼 줄이는 효과가 있었다고 하자.
그럼 H0가 맞을 때 μ의 분포는 평균이 200인 정규분포를 따르고, H1이 맞을 때 μ의 분포는 평균이 195인 정규분포를 따른다.
기각역 c를 변화시켜가면서 α와 β가 어떻게 변하는지 보면 다음과 같다.
c를 작게하면 α는 작아지지만 β는 커진다. 따라서 어느 선에서 타협점을 찾아야 하는데, 대개의 경우 제 1종오류가 제 2종오류보다 심각하기 때문에 α값이 0.05, 0.1 또는 0.01 등의 작은 값을 갖도록 해주는 기각역을 선택한다. 이 때 선택된 α를 유의수준(significance level)이라고 한다.
위의 신약 예시에서 표본의 크기를 40이라 하고 표준편차를 24라 하면 ˉX 의 분포는 N(200,242) 이다. 따라서 Z=ˉX−20024/√40∼N(0,1) 이므로 정규분포표로부터 P[Z≤−1.645]=0.05 를 이용하면 다음과 같은 식을 얻을 수 있다.
0.05=P(ˉX−20024/√40≤−1.645)=P[ˉX≤200−1.645×24/√40]
따라서 기각역 c=200−1.645×24/√40=193.76 이다.
표본의 크기가 큰 경우에는 모집단에 대한 정규분포 가정이 없더라도 중심극한정리를 이용하여 ˉX의 분포가 정규분포가 되며, 표준편차(σ)를 몰라도 표본표준편차(s)로 대신 할 수 있다.
단측검정과 양측검정
위의 예시는 H1:μ<μ0 일 때, 즉, 한 쪽 방향에 대해서만 하는 단측검정이었다.
그러나 모평균(μ)이 어떤 값(μ0)과 차이가 난다. 즉, μ이 μ0이 아니라는 주장을 하고 싶을 때는 대립가설이 H1:μ≠μ0의 형태를 갖게 된다.
즉, Z가 기각역보다 클 때만 기각하거나, 작을 때만 기각하는 검정을 단측검정(one-sidee test)라 하고, Z가 크거나 작은 모든 경우에 기각하는 검정을 양측검정(two-sided test)라 한다.
* 모평균 μ에 대한 검정
표본의 크기가 클 때 모평균 μ에 대한 가설 H0:μ=μ0를 검정하기 위한 검정통계량은 다음과 같다.
Z=ˉX−μ0s/√n
검정통계량의 분포는 H0가 맞을 때 N(0, 1)을 따른다. 각 대립가설에 대하여 유의수준 α를 갖는 기각역은 다음과 같다.
H1:μ<μ0일때R:Z≤−Zα(단측검정)
H1:μ>μ0일때R:Z≥Zα(단측검정)
H1:μ≠μ0일때R:|Z|≥Zα/2(양측검정)
단, 모집단의 표준편차(σ)가 주어져 있을 때 s를 σ로 대체한다.
'AI > 기초통계' 카테고리의 다른 글
[기초통계] t-distribution :: 표본의 크기가 작을 때 :: n에 따른 t분포 in R (4) | 2019.11.23 |
---|---|
[기초통계] 유의확률이란? P-value란? (0) | 2019.11.22 |
[기초통계] 가설검정에서 오류란? :: 제 1종오류란? 제 2종오류란? :: 제 1종오류가 제 2종오류보다 중요한 이유 (0) | 2019.11.14 |
[기초통계] 가설검정이란? (2) | 2019.11.13 |
[기초통계] 통계적 추론방법 :: 구간추정(Interval Estimation), 신뢰구간이란? 신뢰수준의 의미, 해석 (5) | 2019.10.29 |