AI/기초통계

[기초통계] 정규분포란? What is normal distribution? 정규분포 in R

슈퍼짱짱 2019. 10. 9. 08:00
반응형

이전에 셀 수 있는 값들의 분포인 베르누이, 이항분포에 대해 알아보았다.

이번에는 확률변수가 취하는 값들이 셀 수 있는 것이 아니라 시간, 몸무게, 0과 1사이의 임의의 실수처럼 셀 수 없는 연속적인 값을 가지는 연속확률분포들 중에서 대부분의 통계학 이론의 기본이 되는 정규분포에 관하여 알아보자.




연속확률분포란?


정규분포를 알아보기에 앞서, 연속확률분포에 대해 알아보자.


연속확률변수 X는 주어진 구간의 모든 값을 가질 수 있으므로, 앞서 배운 이산확률분포와는 다른 방식으로 표현해야 한다. 

예를 들어, X~Bin(5, 0.25) 에서 P(X=4) = 5C4*(0.25)^4*(0.75)^1 =  0.015 이다. 그렇다면 X가 연속적인 값을 가질 수 있는 상황에서 X=4일 확률은 무엇일까? 신생아의 몸무게가 3.5048965kg일 확률은? 지나가는 행인의 키가 168.129753cm일 확률은? 즉, 연속확률변수에서는 정확히 한 포인트에서의 확률이 아니라 어떤 구간의 확률을 구해야 한다. 신생아의 몸무게가 3.495~3.505kg사이일 확률처럼 말이다.


이와 같이 연속확률변수 X의 확률분포는 확률의 밀도를 나타내는 X의 확률밀도함수에 의해 결정된다.


다음을 만족하는 함수 f(x)를 X의 확률밀도함수(probability density function)라 한다.




정규분포란?


정규분포는 평균 μ와 분산 σ^2에 의해 그 분포가 확정되는데, 그 확률밀도함수의 대략적인 특성은 다음과 같다.


* 정규분포의 특징


확률변수 X가 평균 μ와 분산 σ^2을 갖는 정규분포를 따른다고 하자. X의 확률밀도함수는 다음과 같이 주어진다.



X가 평균 μ로부터 ±σ, ±2σ, ±3σ의 사이에 있을 확률은 다음과 같다.


P[μ-σ ≤ X ≤ μ+σ] = 68.27%

P[μ-2σ ≤ X ≤ μ+2σ] = 95.45%

P[μ-3σ ≤ X ≤ μ+3σ] = 99.73%


평균 μ, 분산 σ^2를 갖는 정규분포는 N(μσ^2)으로 표시한다.


> m <- 0

> sd <- 1


> pnorm(m+sd,m,sd)-pnorm(m-sd,m,sd)

[1] 0.6826895


> pnorm(m+2*sd,m,sd)-pnorm(m-2*sd,m,sd)

[1] 0.9544997


> pnorm(m+3*sd,m,sd)-pnorm(m-3*sd,m,sd)

[1] 0.9973002




정규분포의 특징


정규분포는 위의 그림에서도 보여지는 바와 같이 몇 가지 중요한 특성을 가지고 있다.


1. 평균 μ가 확률밀도함수의 최빈값과 일치한다.

2. 평균 μ를 중심으로 좌우 대칭을 이러우서 평균과 중앙값이 일치한다.

3. 확률밀도함수가 모든 실수에 대해 0보다 크지만, 평균 μ로부터 멀어지면서 그 값이 급격히 작아진다.




정규분포에서 μ와  σ^2이 갖는 의미를 살펴보면 

μ는 평균으로, 분포의 중심을 나타내는 모수이고 σ^2는 평균으로부터 퍼져 있는 정도를 나타내는 모수가 된다.

그러므로 σ^2는 그대로 두고 μ를 변화시키면 다음과 같이 분포의 형태는 똑같이 유지한 채 위치만 변화하게 된다.


1
2
3
4
5
6
7
8
9
sd <- 1
 
m1 <- -3
m2 <- 3
 
plot(seq(-6, 6, length=400), 
     c(dnorm(seq(-6, 0, length=200), mean=m1, sd=sd), dnorm(seq(0, 6, length=200), mean=m2, sd=sd)), 
     type='l', xlab="", ylab="", yaxt="n", frame.plot = F) 
abline(v=c(m1, m2), col="green")
cs



μ는 그대로 두고 σ^2를 변화시키면 대칭의 중심은 고정된 채 분포의 형태만 변하게 된다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
<- 0
 
sd1 <- 0.5
sd2 <- 1.5
sd3 <- 3.5
 
<- seq(-33, length=200)
y1 <- dnorm(seq(-33, length=200), mean=m, sd=sd1)
y2 <- dnorm(seq(-33, length=200), mean=m, sd=sd2)
y3 <- dnorm(seq(-33, length=200), mean=m, sd=sd3)
 
dat <- data.frame(cbind(x,y1,y2,y3))
dat <- reshape2::melt(dat, id="x")
 
ggplot(data = dat) +
  geom_line(aes(x=x,y=value, col=variable)) +
  scale_color_discrete(labels = c("sd : 0.5""sd : 1.5""sd : 3.5")) +
  theme_bw() + theme(legend.title = element_blank()) + xlab(""+ ylab("")
cs





정규분포의 확률계산


표준정규분포(standard normal distribution)란? 정규분포 중에서 평균이 0이고 분산이 1인 경우를 표준정규분포라 한다.


확률변수 Z가 N(0, 1)이라 할 때 Z는 0을 중심으로 대칭인 분포를 갖게 된다. 

그러므로 점 z에서 P[Z<=-z]=P[Z>=z]=1-P[Z<=-z] 이다.



임의의 실수 a<b에 대해 Z가 구간 [a, b]에 있을 확률은 

P[a<=Z<=b] = P[Z<=b] - P[Z<=a]

로 계산할 수 있다.



일반 정규분포의 확률도 표준정규분포에 관한 확률계산 방법으로 계산할 수 있다.

그러기 위해 일반 정규분포를 표준정규분포로 변환해야 하는데 그 방법은 다음과 같다.


확률변수 X가 N(μσ^2)일 때 표준화된 확률변수 

Z = (X-μ)/σ^2

는 평균이 0이고 분산이 1인 정규분포 N(0, 1)을 따른다.



반응형