AI/기초통계

[기초통계] 이항분포란? What is binomial distribution?

슈퍼짱짱 2019. 10. 7. 08:00
반응형

이전 포스팅에서 베르누이 시행에 대해 알아보았다. 

본 포스팅에서는 이항분포에 대해 알아보겠다.


이항분포란?


성공할 확률이 p인 베르누이 시행을 n번 반복할 때에 일어나는 성공의 횟수를 X라 하면, 이 확률변수 X의 확률변수를 모수가 (n, p)인 이항분포라 한다.


즉, 쉽게 생각해 경우의 수가 2개뿐인 실험 1번 시행 - 베르누이/ 베르누이를 n번 시행 - 이항분포


이항분포(binomial distribution)


n : 베르누이 시행의 반복 횟수

p : 각 시행에서 성공할 확률, P(S)

X : n번 시행 중 성공의 횟수


이와 같이 정의된 확률변수 X를 이항 확률변수라 하고 그 분포를 이항분포라 한다. X~Bin(n,p)로 표현하기도 한다.


이항 확률변수 X가 취하는 값의 범위는 0, 1, 2, ..., n이며, X가 0일 확률은 n번의 독립된 시행에서 모두 실해가 일어날 확률이므로 P(X=0)=q X q X ... X q = q^n이다. 

X가 1일 확률은 n번의 시행 중 1번 성공이 일어나는 경우의 수 nC1 = n에 각 경우의 확률 p*q^(n-1)을 곱한 것으로 P(X=1) = npq^(n-1) 이다.

이와 같은 방법으로 P(X=x) = nCx*(p^x)*(q^(n-x))로 얻을 수 있다.


확률변수 X의 분포가 X~Bin(n, p)일 때, x=0,1,...,n에 대하여 확률질량함수는

P(X=x)=nCx*(p^x)*(q^(n-x))

이다.


예)

멘델의 법칙에 의하면 빨간색과 흰색이 섞여 있는 꽃나무를 자가수정시켜 얻은 꽃나무의 25%는 빨간 꽃을 피우게 된다고 한다. 만약 5그루의 혼합 색의 꽃나무를 자가수정시켜 5그루의 꽃나무를 얻었을 때 다음의 확률을 구하여라.

(1) 빨간 꽃나무가 하나도 없다.

(2) 빨간 꽃나무가 4개 이상이다.


위 문제에서 

X(빨간 꽃나무의 수) = 0,1,2,3,4,5

p=0.25

n=5 이며, 각 경우의 수는 서로 독립니다.

즉 X~Bin(5, 0.25)를 따른다.


(1) P(X=0)=5C0*(0.25)^0*(0.75)^5=0.237

(2) P(X>=4) = P(X=4) + P(X=5) = 5C4*(0.25)^4*(0.75)^1 + 5C5*(0.25)^5*(0.75)^1 = 0.015+0.001 = 0.016




p에 따른 확률분포는 다음과 같다.

n=8일 때의 확률 히스토그램을 p=0.3, p=0.5, p=0.9의 세 경우에 그려보았다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
li0.3 <- c()
for(i in 1:10000){
  li0.3 <- c(li0.3,sum(sample(c(0,1),8,replace = T, prob = c(7,3))))
}
hist(li0.3, breaks=0:9,xlim = c(0,9), main="p = 0.3",ylab = "", xlab="")
 
li0.5 <- c()
for(i in 1:10000){
  li0.5 <- c(li0.5,sum(sample(c(0,1),8,replace = T, prob = c(5,5))))
}
hist(li0.5, breaks=0:9,xlim = c(0,9), main="p = 0.5",ylab = "", xlab="")
 
 
li0.9 <- c()
for(i in 1:10000){
  li0.9 <- c(li0.9,sum(sample(c(0,1),8,replace = T, prob = c(1,9))))
}
hist(li0.9, breaks=0:9,xlim = c(0,9), main="p = 0.9",ylab = "", xlab="")
cs



p=0.5일 때는 좌우 대칭으로 중앙에서 높은 확률을 갖게 되며, p=0.3인 경우에는 작은 값 쪽에 확률이 치우쳐 있는 것을 볼 수 있다. 반대로 p=0.9인 경우에는 큰 값에 확률이 치우쳐 있는데, p=0.3보다 더욱 끝 쪽으로 치우쳐 있는 것을 볼 수 있다.




이항분포의 기댓값을 생각해보자. 성공할 확률이 0.3인 베르누이 시행을 100번 반복한다고 하면 이 때 얻어지는 성공의 횟수는 대략 30번 정도가 될 것이다. 즉, X가 모수 (n, p)를 갖는 이항분포를 따를 때 E(X)=np이다.


확률변수 X의 분포가 Bin(n, p)일 때 기대값, 분산, 표준편자는

E(X) = np, Var(X) = npq, sd(X) = sqrt(npq) 가 된다.



반응형