이전에 셀 수 있는 값들의 분포인 베르누이, 이항분포에 대해 알아보았다.
이번에는 확률변수가 취하는 값들이 셀 수 있는 것이 아니라 시간, 몸무게, 0과 1사이의 임의의 실수처럼 셀 수 없는 연속적인 값을 가지는 연속확률분포들 중에서 대부분의 통계학 이론의 기본이 되는 정규분포에 관하여 알아보자.
연속확률분포란?
정규분포를 알아보기에 앞서, 연속확률분포에 대해 알아보자.
연속확률변수 X는 주어진 구간의 모든 값을 가질 수 있으므로, 앞서 배운 이산확률분포와는 다른 방식으로 표현해야 한다.
예를 들어, X~Bin(5, 0.25) 에서 P(X=4) = 5C4*(0.25)^4*(0.75)^1 = 0.015 이다. 그렇다면 X가 연속적인 값을 가질 수 있는 상황에서 X=4일 확률은 무엇일까? 신생아의 몸무게가 3.5048965kg일 확률은? 지나가는 행인의 키가 168.129753cm일 확률은? 즉, 연속확률변수에서는 정확히 한 포인트에서의 확률이 아니라 어떤 구간의 확률을 구해야 한다. 신생아의 몸무게가 3.495~3.505kg사이일 확률처럼 말이다.
이와 같이 연속확률변수 X의 확률분포는 확률의 밀도를 나타내는 X의 확률밀도함수에 의해 결정된다.
다음을 만족하는 함수 f(x)를 X의 확률밀도함수(probability density function)라 한다.
정규분포란?
정규분포는 평균 μ와 분산 σ^2에 의해 그 분포가 확정되는데, 그 확률밀도함수의 대략적인 특성은 다음과 같다.
* 정규분포의 특징
확률변수 X가 평균 μ와 분산 σ^2을 갖는 정규분포를 따른다고 하자. X의 확률밀도함수는 다음과 같이 주어진다.
X가 평균 μ로부터 ±σ, ±2σ, ±3σ의 사이에 있을 확률은 다음과 같다.
P[μ-σ ≤ X ≤ μ+σ] = 68.27%
P[μ-2σ ≤ X ≤ μ+2σ] = 95.45%
P[μ-3σ ≤ X ≤ μ+3σ] = 99.73%
평균 μ, 분산 σ^2를 갖는 정규분포는 N(μ, σ^2)으로 표시한다.
> m <- 0
> sd <- 1
> pnorm(m+sd,m,sd)-pnorm(m-sd,m,sd)
[1] 0.6826895
> pnorm(m+2*sd,m,sd)-pnorm(m-2*sd,m,sd)
[1] 0.9544997
> pnorm(m+3*sd,m,sd)-pnorm(m-3*sd,m,sd)
[1] 0.9973002
정규분포의 특징
정규분포는 위의 그림에서도 보여지는 바와 같이 몇 가지 중요한 특성을 가지고 있다.
1. 평균 μ가 확률밀도함수의 최빈값과 일치한다.
2. 평균 μ를 중심으로 좌우 대칭을 이러우서 평균과 중앙값이 일치한다.
3. 확률밀도함수가 모든 실수에 대해 0보다 크지만, 평균 μ로부터 멀어지면서 그 값이 급격히 작아진다.
정규분포에서 μ와 σ^2이 갖는 의미를 살펴보면
μ는 평균으로, 분포의 중심을 나타내는 모수이고 σ^2는 평균으로부터 퍼져 있는 정도를 나타내는 모수가 된다.
그러므로 σ^2는 그대로 두고 μ를 변화시키면 다음과 같이 분포의 형태는 똑같이 유지한 채 위치만 변화하게 된다.
1 2 3 4 5 6 7 8 9 | sd <- 1 m1 <- -3 m2 <- 3 plot(seq(-6, 6, length=400), c(dnorm(seq(-6, 0, length=200), mean=m1, sd=sd), dnorm(seq(0, 6, length=200), mean=m2, sd=sd)), type='l', xlab="", ylab="", yaxt="n", frame.plot = F) abline(v=c(m1, m2), col="green") | cs |
μ는 그대로 두고 σ^2를 변화시키면 대칭의 중심은 고정된 채 분포의 형태만 변하게 된다.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 | m <- 0 sd1 <- 0.5 sd2 <- 1.5 sd3 <- 3.5 x <- seq(-3, 3, length=200) y1 <- dnorm(seq(-3, 3, length=200), mean=m, sd=sd1) y2 <- dnorm(seq(-3, 3, length=200), mean=m, sd=sd2) y3 <- dnorm(seq(-3, 3, length=200), mean=m, sd=sd3) dat <- data.frame(cbind(x,y1,y2,y3)) dat <- reshape2::melt(dat, id="x") ggplot(data = dat) + geom_line(aes(x=x,y=value, col=variable)) + scale_color_discrete(labels = c("sd : 0.5", "sd : 1.5", "sd : 3.5")) + theme_bw() + theme(legend.title = element_blank()) + xlab("") + ylab("") | cs |
정규분포의 확률계산
표준정규분포(standard normal distribution)란? 정규분포 중에서 평균이 0이고 분산이 1인 경우를 표준정규분포라 한다.
확률변수 Z가 N(0, 1)이라 할 때 Z는 0을 중심으로 대칭인 분포를 갖게 된다.
그러므로 점 z에서 P[Z<=-z]=P[Z>=z]=1-P[Z<=-z] 이다.
임의의 실수 a<b에 대해 Z가 구간 [a, b]에 있을 확률은
P[a<=Z<=b] = P[Z<=b] - P[Z<=a]
로 계산할 수 있다.
일반 정규분포의 확률도 표준정규분포에 관한 확률계산 방법으로 계산할 수 있다.
그러기 위해 일반 정규분포를 표준정규분포로 변환해야 하는데 그 방법은 다음과 같다.
확률변수 X가 N(μ, σ^2)일 때 표준화된 확률변수
Z = (X-μ)/σ^2
는 평균이 0이고 분산이 1인 정규분포 N(0, 1)을 따른다.
'AI > 기초통계' 카테고리의 다른 글
표본평균의 분포 & 중심극한정리 in R (0) | 2019.10.19 |
---|---|
표집분포란? What is sampling distribution? (0) | 2019.10.17 |
[기초통계] 정규확률그림이란? 정규확률그림 그리는 방법/원리 (qqplot in R) (0) | 2019.10.08 |
[기초통계] 이항분포란? What is binomial distribution? (0) | 2019.10.07 |
[기초통계] 베르누이 시행이란? (0) | 2019.10.06 |