본문 바로가기
Studies/확률&통계

이산형 확률분포 - 기하 분포(Geometric Distribution), 음이항 분포(Negative Binomial Distribution), 초기하 분포(Hypergeometric Distribution)

by 알푼 2023. 5. 11.
728x90
728x90

기하 분포(Geometric Distribution)

 

기하 분포의 정의


기하 분포는 베르누이 시행으로부터 시작한다. 성공 혹은 실패의 경우로 구성된 시행을 연달아 수행하며 처음 성공할 때 까지 시도한 횟수 $X$에 대한 분포이다. 기하분포의 확률질량함수(pmf)는 다음과 같이 정의한다.

$P\{X=n\} = (1-p)^{n-1}p\quad n=1,2,...$

동전을 다섯 번 던져서 앞면이 나올 확률은 $p=0.5$이고 5번째에 처음으로 앞면이 나온다면, 4번째 까지는 뒷면이 나오고 (뒷면이 나올 확률 = $1-p$) 마지막 5번째 시도에서 앞면이 나와야 하므로 위와 같은 식이 정의된다.

 

기하 분포의 기대값과 분산


$E[X] = 1/p$

$V[X] = (1-p)/p^{2}$

 

기하 분포의 예제


항아리에 N개의 흰색 공과 M개의 검은색 공이 있다. 랜덤하게 공을 선택하는데, 검은색 공이 뽑힐때까지 샘플링을 한다. 복원추출로 시행하여 뽑은 공은 다시 집어넣고 다음 공을 뽑는다.

이때 n번째 시행에서 검은색 공이 처음 나올 확률은?

$P\{X=n\} = (\cfrac{N}{M+N})^{n-1} \cfrac{M}{M+N} = \cfrac{MN^{n-1}}{(M+N)^{n}}$

 

기하 분포를 사용하기 좋은 경우


  1. 성공 확률이 매우 낮은 경우 : 예를 들어 제조 공정에서 제품의 불량률이 매우 낮으면, 첫 번째 불량품이 나올 때까지 걸리는 시간을 기하 분포로 모델링 할 수 있음
  2. 시행 횟수가 고정되어 있지 않은 경우 : 판매원이 첫 제품을 판매할 때 까지 걸리는 시행 횟수는 상황에 따라 다르기 때문에 기하 분포로 모델링 할 수 있음
  3. 시간이 중요한 경우 : 첫 번째 성공까지 걸리는 시행 횟수를 모델링 하므로 시간이 중요한 경우에 유용
  4. 이산적인 결과를 모델링 하는 경우

 

음이항 분포(Negative Binomial Distribution)

 

음이항 분포의 정의


음이항 분포는 이항 분포와 유사하지만, 첫 번째 성공이 아닌 $r$번째 성공에 주목한다. 즉, 성공확률 $p$에서 $n$번째 시행에서 $r$번째 성공을 얻을 확률을 나타낸다.

$P\{X=n\} = \left(\!\!\begin{array}{c}n-1\\r-1\end{array}\!\!\right)p^{r}(1-p)^{n-r} \quad n=r,r+1,...$

이항분포와 마찬가지로 $n-1$번째 실험까지 $r-1$번의 성공이 있어야 하고, $n$번째 시행에서 성공할 확률은 $p$이므로 위와 같이 나타낼 수 있다.

음이항 분포의 Parameter는 성공횟수 $r$ 과 성공확률 $p$ 인데, 여기서 $r=1$일 경우 기하분포와 동일하다.

 

음이항 분포의 기대값과 분산


$E[X] = \cfrac{r}{p}$

$V[X] = \cfrac{r(1-p)}{p^{2}}$

 

음이항 분포의 예제


6이 3번 나올 때 까지 주사위를 던진다. 5번째 시행에서 6이 3번째 나올 확률은?

$X$ : 6이 3번 나올떄까지 던진 주사위 횟수 ( $X=3,4,5,...$) → 최소 3번째부터 가능하기 때문에

$n=5, r=3, p=\cfrac{1}{6}$

$P(X=5) = \left(\!\!\begin{array}{c}4\\2\end{array}\!\!\right)\cfrac{1}{6}^{2}\cfrac{5}{6}^{4-2}\cfrac{1}{6} = 0.138$

→ 마지막 5번째 시행에서 6이 나와야 하므로 마지막에 확률 $\cfrac{1}{6}$ 을 곱해줌

 

초기하 분포(Hypergeometric Distribution)

 

초기하 분포의 정의


초기하 분포는 품질을 측정할 때 많이 사용된다.

N개의 공이 있고, 그 중 m개가 흰색 공이고 나머지 (N-m)개가 빨간공일 때, n개를 비복원추출(샘플링 시 하나 뽑고 다시 넣지 않고 다시 새롭게 뽑는 것)로 뽑는다고 할 때, n개의 샘플 중에서 흰색 공의 개수가 몇 개 인지 나타내는 확률 분포이다.

$P\{X=i\} = \cfrac{\left(\!\!\begin{array}{c}m\\i\end{array}\!\!\right)\left(\!\!\begin{array}{c}N-m\\n-i\end{array}\!\!\right)}{\left(\!\!\begin{array}{c}N\\n\end{array}\!\!\right)}\quad i = 0,1,...,n$

 

초기하 분포의 기대값과 분산


$E[X] = \cfrac{nm}{N}$

$V[X] = \cfrac{N-n}{N-1}\centerdot n\centerdot \cfrac{m}{N}\centerdot(1-\cfrac{m}{N})$

 

초기하 분포의 예제


배치가 30개인 생산품에서 5개가 불량이다. 이 중 4개를 샘플링 할 때 2개가 불량일 확률은?

$P\{X=2\} = \cfrac{\left(\!\!\begin{array}{c}5\\2\end{array}\!\!\right)\left(\!\!\begin{array}{c}30-5\\4-2\end{array}\!\!\right)}{\left(\!\!\begin{array}{c}30\\4\end{array}\!\!\right)}\quad = 0.109$

 

https://losskatsu.github.io/statistics/hypergeometric/#참고-확률분포간-관계도

참고 : 김성범 교수님 유튜브

 

728x90
반응형

댓글