AI/기초통계

[기초통계] 가설검정이란?

슈퍼짱짱 2019. 11. 13. 08:00
반응형

기초통계 :: 가설검정이란?

가설검정이란? 모수에 대한 가설이 적합한지를 추출한 표본으로부터 판단하고자 하는 것


1. 가설검정이 필요한 이유/ 가설검정 예시


모 병원에서 콜레스테롤 수치를 낮춰주는 신약을 개발했다. 이 약이 정말 효과가 있는지 어떻게 알아보아야 할까?


실험 대상이 되는 성인 40명을 대상으로 약 복용 전 콜레스테롤 수치를 측정하여 평균\(\bar{X}\)을 계산하였다. 그 수치는 평균 200(mg/dl) 이고 표준편차는 24(mg/dl) 인 분포를 따른다고 하자. 


약 복용 후 콜레스테롤 수치를 \(\mu\)라 하자. 직관적으로 생각했을 때 이 모평균 \(\mu\)를 알기 위해서는 실험 대상(표본) 뿐 아니라 모든 사람에 대해 측정해야 한다. 하지만 이는 불가능에 가깝기 때문에 표본에 대해서만 측정한다. 따라서 이 결과만 가지고 \(\mu\)가 200보다 작다(즉, 신약이 효과가 있다) 라고 확답은 할 수 없지만, 근거가 있다고는 할 수 있다.


약 복용 후 \(\bar{X}\)가 200 보다 조금 작은 값이 나왔다고 하자. \(\bar{X}\)가 200보다 조금 작다고 \(\mu\)가 200보다 작다(신약이 효과가 있었다) 라고 주장할 수는 없다. 

즉, 충분히 작은 \(c\)에 대해 \(\bar{X}\le c\) 의 형태를 가질 때 \(\mu\)가 200보다 작다고 할 수 있을 것이다.


그럼 \(c\)가 어떤 값이어야 \(\mu\)가 200보다 작다고 주장할 수 있을까?

\(\mu\) = 200일 때는 우연히라도 나오지 않을 정도로 작은 값이어야 한다. 예를 들어 0.05의 확률로 거의 나오지 않을 값이라고 하자. 즉, \(P[\bar{x} \le c] = 0.05\) 가 되는 \(c\)를 찾으면 된다.


만약 약의 효과가 없었다면 모집단의 분포는 \(N(200, 24^2)\) 이므로 크기가 40인 표본의 평균 \(\bar{X}\)의 분포는 \(N(200, 24^2/40)\)이다. 따라서 \(Z = \frac{\bar{X}-200}{24/\sqrt{40}} \sim N(0, 1)\) 이므로 정규분포표로부터  \(P[Z \le -1.645] = 0.05\) 를 이용하면 다음과 같은 식을 얻을 수 있다.


$$0.05 = P(\frac{\bar{X}-200}{24/\sqrt{40}}\le -1.645) = P[\bar{X} \le 200-1.645 \times 24/\sqrt{40}]$$


따라서 \(c = 200-1.645 \times 24/\sqrt{40} = 193.76\) 이다. 

즉, 

1) 만약 \(\bar{X} \le 193.76\) 이면 신약은 콜레스테롤 수치를 줄이는데 효과적이라고 할 수 있다.

2) 만약 \(\bar{X} > 193.76\) 이면 신약은 콜레스테롤 수치를 줄이는데 효과적이라고 할 충분한 근거가 없다.




2. 가설이란?


가설검정에는 두 개의 가설이 있다. 하나는 우리가 주장하고자 하는 가설이고, 다른 하나는 그 주장을 입증할 수 없을 때 받아드려야 하는 가설이다. 즉, 주장하고자 하는 가설을 대립가설(alternative hypothesis : \(H_{1}\)) 이라 하고, 후자의 가설을 귀무가설(null hypothesis : \(H_{0}\))이라 한다.


대립가설(\(H_{1}\)) : 입증하여 주장하고자 하는 가설

귀무가설(\(H_{0}\)) : 대립가설의 반대 가설로, 대립가설을 입증할 수 없을 때 받아드리는 가설


위 1번 예의 경우 대립가설은 \(H_{1} : \mu < 200\) 으로 표현할 수 있고, 귀무가설은 \(H_{0} : \mu = 200\) 으로 표현할 수 있다.








반응형