Notice
Recent Posts
Recent Comments
Link
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
Archives
Today
Total
관리 메뉴

Dilettante Zen

[수리통계] 포아송 분포 & 초기하분포 본문

Theories and Skills

[수리통계] 포아송 분포 & 초기하분포

Zen.dlt 2016. 12. 14. 19:33

<포아송 분포>

포아송분포는 어떤 사건이 일어날 확률이 시간과 관계가 있을 때 사용하는 분포이다. 단위 시간당 어떤 사건이 일어날 확률변수의 발생빈도(확률)의 형태를 포아송분포라고 한다. 포아송 분포에서 x는 발생사건수를 의미한다. 시간(0 ,t) 사이에 발생하는 사건의 수를 다룰 때 사용되는 분포이다. 이 때 필요한 모수인 평균 발생건수를 람다(λ)라는 기호로 표현한다.

이럴 때 확률변수 x가 가질 수 있는 확률값들의 집합인 Rx는 아래와 같다.

Rx={0, 1, 2, …… , n}

이럴 때 확률분포 x가 따르는 분포를 포아송 분포라고 말한다


# 포아송 분포가 되기 위한 조건

(1) 짧은 구간에서 발생하는 사건들은 서로 독립적이다. (일정한 시간 구간에서 발생할 수 있는 사건의 수는 다른 구간에서 발생할 수 있는 사건의 수와 독립적이다.)

(2) 짧은 구간에서 발생하는 사건의 수는 구간의 길이에 비례한다.

(3) 짧은 구간에서 2회 이상의 사건이 발생할 확률은 무시한다. 사건이 발생하거나 발생하지 않거나 두 경우만 있다. (Event 0 이거나 1).

 

# 포아송 분포의 확률 특성

(1) 사건이 발생할 확률은 λ/n이다. 발생하지 않을 확률은 1- λ/n이다.

(2) x의 포아송 확률함수 f(x)=e^( λt)( λt)^x / x!

(3) 포아송 분포의 평균과 분포는 모두 λ이며, 다른 분포와 다르게 평균과 분산이 같은 값을 갖는다.

 

ex) 시간당 평균 환자수는 10 발생한다. 오전 9~10 사이에 환자가 12 방문할 확률은 얼마인가?

A)  λ=10. 여기서 λ 경험상 미리 알고 있는 값이다.

f(12)=e^(-10*1)(10*1)^12/ 12!

 

환경역학에서 대기오염에 의한 환자 사망자수 발생건수를 연구할 주로 포아송분포가 사용된다. 대기오염 연구는 일별(daily) 환자와 대기오염수준의 자료를 축적하여 시계열자료(time-series data) 만드는데 여기서 (day) 시간이고, 일별로 발생할 있는 사망자수(또는 환자수) 확률변수가 되므로 이런 분석에서는 사망자수의 분포에 포아송분포를 적용하게 된다.

참고로 자료 특성상 대기오염 연구에서 사망자수의 경우 분산이 평균보다 과분포(overdispersion) 현상이 나타나는데, 때는 quasi-poisson 분포를 적용한다.

 

<초기하 분포>

가령 전체 sample n개 중에서 특성 조건을 만족시키는 sample의 개수를 x개라고 한다. 이 때 전체 sample 에서 임의로 sample k개를 추출할 때 특정조건을 만족시키는 sample이 나타내는 확률변수의 분포를 초기하분포라고 한다. 초기하분포는 특히 비복원추출일 때에 적용한다. (이항분포는 복원추출일 때 사용된다.)

n=전체개수

k=조건을 만족시키는 건수

n-k는 조건을 만족시키지 않는 건수

x=추출하는 표본수

Rx=임의로 x개를 뽑을 때 확률변수의 집합

 

# 초기하분포의 확률 특성

n>=k일 때, Rx={0, 1, 2, …..,k}

n<k일 때 Rx={0, 1, 2, ….., n}

위를 동시에 표현하면 Rx={0, 1, 2, …., min(k, n)} 이다.

f(x)=P(X=x)=kCx * n-kCn-x / NCn

 (cf. nCr=n! / (n-r)!r!)

# 초기하분포의 평균과 분산

평균: nk/N

분산: n*(k/N)(1-k/N)*(N-n/N-1)

(n=추출횟수, k=조건만족 건수, N=전체건수)

 

ex) 어떤 제품이 전체 100개일 때, 불량제품이 5개 포함되어 있다. 이 때 10개의 제품을 추출했을 때 불량품이 1개일 확률은?

 

A) X=n=10

Rx={0, 1, 2, 3, 4, 5}

P(X=1)=5C1 * 95C9 / 100C10  = 0.339

 


참고: http://www.kocw.net/home/search/kemView.do?kemId=1165032