앞 서 가설검정과 가설검정시 범할 수 있는 오류에 대해 알아보았다.
이번에는 귀무가설을 기각하는 구간인 기각역에 대해 알아보겠다.
기각역이란?
우리는 모집단의 일부분인 표본으로부터 검정의 결론, 즉, \(H_{0}\)을 기각하거나, \(H_{0}\)을 기각하지 않고 유지하는 결정을 내리게 되는데, 이 때 이용되는 표본의 함수, 즉 통계량을 검정통계량이라 한다.
콜레스테롤 수치를 낮춰주기 위해 개발한 신약이 효과가 있는지 없는지 검정하는 예시에서 약 복용 후 실험자들의 콜레스테롤 수치의 평균 \(\bar{X}\)가 검정통계량이 된다.
약을 복용 전 콜레스테롤 수치의 평균이 200이라 하자.
\(H_{0}\) : 신약이 효과가 없다. : \(\mu = 200\)
\(H_{1}\) : 신약이 효과가 있다. : \(\mu < 200\)
개발된 약이 정말로 효과가 있기 위해서는 이 \(\bar{X}\)의 값이 200에 비해 상당히 작아야 한다. 즉, 적당한 \(c\)에 대해 \(\bar{X} < c\) 일 때 \(H_{0}\)을 기각한다. 이렇게 \(\bar{X}\)가 취하는 구간 중에서 \(H_{0}\)을 기각하게 하는 구간을 기각역(critical region)이라 하는데, 이를 \(R : \bar{X} \le c\)로 표현하고, \(\bar{X}\)가 \(c\)이하이면 \(H_{0}\)를 기각한다.
기각역이란? \(\bar{X}\)가 취하는 구간 중에서 \(H_{0}\)을 기각하게 하는 구간
가설검정의 결과는 오류를 범할 가능성이 존재한다. 따라서 가장 바람직한 기각역이란 제 1종오류(\(\alpha\))와 제 2종오류(\(\beta\))를 최소화시키는 값이다.
그러나 \(\alpha\)를 줄이려면 \(\beta\)가 커지게 되고, \(\beta\)를 줄이려면 \(\alpha\)가 커지게된다.
그 이유를 위의 예시로 설명하면,
$$ H_{0}가 맞을 때\, (\mu = 200)\quad \alpha = P[\bar{X} \le c] $$
$$ H_{1}가 맞을 때\, (\mu < 200)\quad \beta = P[\bar{X} > c] $$
가 된다.
\(H_{1}\)가 맞을 때 \(\mu=195\)라 하자. 즉, 개발된 약이 콜레스테롤 수치를 5(mg/dl) 만큼 줄이는 효과가 있었다고 하자.
그럼 \(H_{0}\)가 맞을 때 \(\mu\)의 분포는 평균이 200인 정규분포를 따르고, \(H_{1}\)이 맞을 때 \(\mu\)의 분포는 평균이 195인 정규분포를 따른다.
기각역 \(c\)를 변화시켜가면서 \(\alpha\)와 \(\beta\)가 어떻게 변하는지 보면 다음과 같다.
\(c\)를 작게하면 \(\alpha\)는 작아지지만 \(\beta\)는 커진다. 따라서 어느 선에서 타협점을 찾아야 하는데, 대개의 경우 제 1종오류가 제 2종오류보다 심각하기 때문에 \(\alpha\)값이 0.05, 0.1 또는 0.01 등의 작은 값을 갖도록 해주는 기각역을 선택한다. 이 때 선택된 \(\alpha\)를 유의수준(significance level)이라고 한다.
위의 신약 예시에서 표본의 크기를 40이라 하고 표준편차를 24라 하면 \(\bar{X}\) 의 분포는 \(N(200, 24^2)\) 이다. 따라서 \(Z = \frac{\bar{X}-200}{24/\sqrt{40}} \sim N(0, 1)\) 이므로 정규분포표로부터 \(P[Z \le -1.645] = 0.05\) 를 이용하면 다음과 같은 식을 얻을 수 있다.
$$0.05 = P(\frac{\bar{X}-200}{24/\sqrt{40}}\le -1.645) = P[\bar{X} \le 200-1.645 \times 24/\sqrt{40}]$$
따라서 기각역 \(c = 200-1.645 \times 24/\sqrt{40} = 193.76\) 이다.
표본의 크기가 큰 경우에는 모집단에 대한 정규분포 가정이 없더라도 중심극한정리를 이용하여 \(\bar{X}\)의 분포가 정규분포가 되며, 표준편차(\(\sigma\))를 몰라도 표본표준편차(\(s\))로 대신 할 수 있다.
단측검정과 양측검정
위의 예시는 \(H_{1} : \mu < \mu_{0}\) 일 때, 즉, 한 쪽 방향에 대해서만 하는 단측검정이었다.
그러나 모평균(\(\mu\))이 어떤 값(\(\mu_{0}\))과 차이가 난다. 즉, \(\mu\)이 \(\mu_{0}\)이 아니라는 주장을 하고 싶을 때는 대립가설이 \(H_{1} : \mu \ne \mu_{0}\)의 형태를 갖게 된다.
즉, Z가 기각역보다 클 때만 기각하거나, 작을 때만 기각하는 검정을 단측검정(one-sidee test)라 하고, Z가 크거나 작은 모든 경우에 기각하는 검정을 양측검정(two-sided test)라 한다.
* 모평균 \(\mu\)에 대한 검정
표본의 크기가 클 때 모평균 \(\mu\)에 대한 가설 \(H_{0} : \mu=\mu_{0}\)를 검정하기 위한 검정통계량은 다음과 같다.
$$ Z = \frac{\bar{X}-\mu_{0}}{s/\sqrt{n}} $$
검정통계량의 분포는 \(H_{0}\)가 맞을 때 N(0, 1)을 따른다. 각 대립가설에 대하여 유의수준 \(\alpha\)를 갖는 기각역은 다음과 같다.
$$ H_{1} : \mu<\mu_{0} 일 때 \quad R : Z \le -Z_{\alpha}\quad (단측검정)$$
$$ H_{1} : \mu>\mu_{0} 일 때 \quad R : Z \ge Z_{\alpha}\quad (단측검정)$$
$$ H_{1} : \mu \ne \mu_{0} 일 때 \quad R : \left| Z \right| \ge Z_{\alpha/2}\quad (양측검정)$$
단, 모집단의 표준편차(\(\sigma\))가 주어져 있을 때 \(s\)를 \(\sigma\)로 대체한다.
'AI > 기초통계' 카테고리의 다른 글
[기초통계] t-distribution :: 표본의 크기가 작을 때 :: n에 따른 t분포 in R (4) | 2019.11.23 |
---|---|
[기초통계] 유의확률이란? P-value란? (0) | 2019.11.22 |
[기초통계] 가설검정에서 오류란? :: 제 1종오류란? 제 2종오류란? :: 제 1종오류가 제 2종오류보다 중요한 이유 (0) | 2019.11.14 |
[기초통계] 가설검정이란? (2) | 2019.11.13 |
[기초통계] 통계적 추론방법 :: 구간추정(Interval Estimation), 신뢰구간이란? 신뢰수준의 의미, 해석 (5) | 2019.10.29 |