기초통계 :: 가설검정이란?
가설검정이란? 모수에 대한 가설이 적합한지를 추출한 표본으로부터 판단하고자 하는 것
1. 가설검정이 필요한 이유/ 가설검정 예시
모 병원에서 콜레스테롤 수치를 낮춰주는 신약을 개발했다. 이 약이 정말 효과가 있는지 어떻게 알아보아야 할까?
실험 대상이 되는 성인 40명을 대상으로 약 복용 전 콜레스테롤 수치를 측정하여 평균\(\bar{X}\)을 계산하였다. 그 수치는 평균 200(mg/dl) 이고 표준편차는 24(mg/dl) 인 분포를 따른다고 하자.
약 복용 후 콜레스테롤 수치를 \(\mu\)라 하자. 직관적으로 생각했을 때 이 모평균 \(\mu\)를 알기 위해서는 실험 대상(표본) 뿐 아니라 모든 사람에 대해 측정해야 한다. 하지만 이는 불가능에 가깝기 때문에 표본에 대해서만 측정한다. 따라서 이 결과만 가지고 \(\mu\)가 200보다 작다(즉, 신약이 효과가 있다) 라고 확답은 할 수 없지만, 근거가 있다고는 할 수 있다.
약 복용 후 \(\bar{X}\)가 200 보다 조금 작은 값이 나왔다고 하자. \(\bar{X}\)가 200보다 조금 작다고 \(\mu\)가 200보다 작다(신약이 효과가 있었다) 라고 주장할 수는 없다.
즉, 충분히 작은 \(c\)에 대해 \(\bar{X}\le c\) 의 형태를 가질 때 \(\mu\)가 200보다 작다고 할 수 있을 것이다.
그럼 \(c\)가 어떤 값이어야 \(\mu\)가 200보다 작다고 주장할 수 있을까?
\(\mu\) = 200일 때는 우연히라도 나오지 않을 정도로 작은 값이어야 한다. 예를 들어 0.05의 확률로 거의 나오지 않을 값이라고 하자. 즉, \(P[\bar{x} \le c] = 0.05\) 가 되는 \(c\)를 찾으면 된다.
만약 약의 효과가 없었다면 모집단의 분포는 \(N(200, 24^2)\) 이므로 크기가 40인 표본의 평균 \(\bar{X}\)의 분포는 \(N(200, 24^2/40)\)이다. 따라서 \(Z = \frac{\bar{X}-200}{24/\sqrt{40}} \sim N(0, 1)\) 이므로 정규분포표로부터 \(P[Z \le -1.645] = 0.05\) 를 이용하면 다음과 같은 식을 얻을 수 있다.
$$0.05 = P(\frac{\bar{X}-200}{24/\sqrt{40}}\le -1.645) = P[\bar{X} \le 200-1.645 \times 24/\sqrt{40}]$$
따라서 \(c = 200-1.645 \times 24/\sqrt{40} = 193.76\) 이다.
즉,
1) 만약 \(\bar{X} \le 193.76\) 이면 신약은 콜레스테롤 수치를 줄이는데 효과적이라고 할 수 있다.
2) 만약 \(\bar{X} > 193.76\) 이면 신약은 콜레스테롤 수치를 줄이는데 효과적이라고 할 충분한 근거가 없다.
2. 가설이란?
가설검정에는 두 개의 가설이 있다. 하나는 우리가 주장하고자 하는 가설이고, 다른 하나는 그 주장을 입증할 수 없을 때 받아드려야 하는 가설이다. 즉, 주장하고자 하는 가설을 대립가설(alternative hypothesis : \(H_{1}\)) 이라 하고, 후자의 가설을 귀무가설(null hypothesis : \(H_{0}\))이라 한다.
대립가설(\(H_{1}\)) : 입증하여 주장하고자 하는 가설
귀무가설(\(H_{0}\)) : 대립가설의 반대 가설로, 대립가설을 입증할 수 없을 때 받아드리는 가설
위 1번 예의 경우 대립가설은 \(H_{1} : \mu < 200\) 으로 표현할 수 있고, 귀무가설은 \(H_{0} : \mu = 200\) 으로 표현할 수 있다.
'AI > 기초통계' 카테고리의 다른 글
[기초통계] 기각역이란? :: 제 1종오류와 제 2종오류의 관계 :: 단측검정, 양측검정 (0) | 2019.11.21 |
---|---|
[기초통계] 가설검정에서 오류란? :: 제 1종오류란? 제 2종오류란? :: 제 1종오류가 제 2종오류보다 중요한 이유 (0) | 2019.11.14 |
[기초통계] 통계적 추론방법 :: 구간추정(Interval Estimation), 신뢰구간이란? 신뢰수준의 의미, 해석 (5) | 2019.10.29 |
[기초통계] 통계적 추론방법 :: 점추정(Point Estimation) (4) | 2019.10.23 |
표본평균의 분포 & 중심극한정리 in R (0) | 2019.10.19 |