AI/기초통계

[기초통계] 통계적 추론방법 :: 구간추정(Interval Estimation), 신뢰구간이란? 신뢰수준의 의미, 해석

슈퍼짱짱 2019. 10. 29. 10:48
반응형

이전 포스팅에서 통계적 추론 방법 중 점추정에 대해 알아보았다.


>> 통계적 추론 방법 :: 점추정 바로가기


이번에는 구간추정에 대해 알아보겠다.




(2) 구간추정 (Interval Estimation)


점추정은 말 그대로 모수를 하나의 수치로 추정하고자 하는 것이다. 반면 구간추정은 하나의 수치를 구하는 것이 아니라, 추정량의 분포를 이용하여 표본으로부터 모수 값을 포함하리라고 예상되는 구간을 제시하는 것이다. 이 때 제시되는 구간을 신뢰구간(confidence interval)이라 부른다.


신뢰구간은 대개 (L, U)의 형태로 이루어지며, L과 U는 표본으로부터 계산된다. 즉, 매 표본마다 계산되는 신뢰구간이 서로 다를 수 있다. 


만약 어떤 모평균에 대한 신뢰구간으로 (-∞, ∞)가 주어진다면, 어떤 표본에 대해서도 모평균의 값은 항상 포함될 것이다. 그러나 이 신뢰구간으로부터 모평균이 실수라는 것 외에 어떠한 정보도 얻을 수가 없다. 따라서 신뢰구간을 가능한 줄일 필요가 있는데, 그러기 위해서는 신뢰구간이 어떤 표본에 대해서도 모수를 포함해야 한다는 조건을 어느 정도는 완화시킬 필요가 있다. 즉, 신뢰구간이 모수를 포함할 확률을 1보다는 작은 일정한 수준에서 유지시키면서 구간의 길이를 줄이는 것이 좋은 신뢰구근알 만드는 기초라 할 수 있다. 이 때, 모수를 포함할 확률을 보편적으로 90%, 95%, 99% 등을 사용하는데, 이 확률을 신뢰수준(level of confidence) 또는 신뢰도라고 한다.


* 신뢰수준의 의미


예를 들어, 신뢰수준을 90%라 하자. 이는 100개의 표본을 뽑아 각각 모평균에 대한 신뢰구간을 제시했을 때, 그 구간안에 모평균이 속하는 표본이 90개라 해석할 수 있다.


한 표본에 대한 신뢰구간에 모평균이 포함될 확률이 90%가 아님을 주의해야 한다.




- 모평균(μ)의 신뢰구간 구하는 방법


μ의 신뢰구간을 구하기 위해서 μ의 추정량 X̄의 분포가 필요하다.

예를 들어 모집단이 정규분포이고 표준편차(σ)가 주어져 있을 때를 고려해보자. 이 경우 X̄의 분포는 평균이 μ이고 표준편차가 σ/n 정규분포를 따른다. 따라서 표준화된 표본평균 (-μ)/(σ/√n) 의 분포는 표준정규분포 N(0,1)을 따르고, 다음의 식을 만족하게 된다.



x <- seq(-3,3,by=0.01); y <- dnorm(x) right <- qnorm(0.95); left <- qnorm(0.05) plot(x,y,type="l",xaxt="n",ylab="", xlab=expression(paste('Assumed Distribution of ',bar(x))), axes=FALSE,ylim=c(0,max(y)*1.05),xlim=c(min(x),max(x)), frame.plot=FALSE) axis(1,at=c(-3,left,right,3), pos = c(0,0), labels=c(expression(' '),expression(-Z[alpha/2]),expression(Z[alpha/2]),expression(' '))) xReject <- seq(right,3,by=0.01) yReject <- dnorm(xReject) polygon(c(xReject,xReject[length(xReject)],xReject[1]), c(yReject,0, 0), col='greenyellow') xReject <- seq(-3,left,by=0.01) yReject <- dnorm(xReject) polygon(c(xReject,xReject[length(xReject)],xReject[1]), c(yReject,0, 0), col='greenyellow')




위의 식에서 괄호 안의 부등식을 풀어쓰면 다음과 같다.


이 식을 μ에 대해 정리하면 다음과 같다.


이로부터 모집단이 정규분포를 따르고 표준편차가 알려져 있는 경우, μ에 대한 100(1-α)% 신뢰구간은 다음과 같이 구할 수 있다.



σ가 작을수록 신뢰구간의 길이가 짧아지고, 신뢰수준을 높일수록(α를 줄일수록) 신뢰구간의 길이가 길어진다. 또한, 표본의 크기가 클 수록 신뢰구간의 길이가 짧아지므로 μ에 대한 좀 더 정확한 정보를 얻을 수 있다.


예) 평균이 μ이고 표준편차가 σ=8인 정규분포를 따르는 모집단에서 크기가 25인 표본을 추출하여 평균을 계산하였더니 X̄=42.7이었다. 이 때 μㅔ 대한 95% 신뢰구간을 구하여라.


95% 신뢰구간에 대하여 α=0.05이므로 Z=1.96이다.


(42.7-1.96*(8/√25), 42.7+1.96*(8/√25)) = (39.56, 45.84) 또는 42.7±3.14

 

* 여기서 주의해야 할 점은 하나의 표본으로부터 계산된 95% 신뢰구간 (39.56, 45.84)은 μ를 포함하거나 포함하지 않거나 둘 중의 하나이지, 95%의 확률로 μ를 포함하는 것이 아니다.

신뢰구간에서 95%가 의미하는 바는 같은 크기의 표본을 여러 번 추출하여 신뢰구간을 구할 경우, 그 중 약 95%의 구간이 모수를 포함한다고 해석해야 한다.

















반응형