Dilettante Zen
[수리통계] 포아송 분포 & 초기하분포 본문
<포아송 분포>
포아송분포는 어떤 사건이 일어날 확률이 시간과 관계가 있을 때 사용하는 분포이다. 단위 시간당 어떤 사건이 일어날 확률변수의 발생빈도(확률)의 형태를 포아송분포라고 한다. 포아송 분포에서 x는 발생사건수를 의미한다. 시간(0 ,t) 사이에 발생하는 사건의 수를 다룰 때 사용되는 분포이다. 이 때 필요한 모수인 평균 발생건수를 람다(λ)라는 기호로 표현한다.
이럴 때 확률변수 x가 가질 수 있는 확률값들의 집합인 Rx는 아래와 같다.
Rx={0, 1, 2, …… , n}
이럴 때 확률분포 x가 따르는 분포를 포아송 분포라고 말한다.
# 포아송 분포가 되기 위한 조건
(1) 짧은 구간에서 발생하는 사건들은 서로 독립적이다. (일정한 시간 구간에서 발생할 수 있는 사건의 수는 다른 구간에서 발생할 수 있는 사건의 수와 독립적이다.)
(2) 짧은 구간에서 발생하는 사건의 수는 구간의 길이에 비례한다.
(3) 짧은 구간에서 2회 이상의 사건이 발생할 확률은 무시한다. 사건이 발생하거나 발생하지 않거나 두 경우만 있다. (Event는 0 이거나 1회).
# 포아송 분포의 확률 특성
(1) 사건이 발생할 확률은 λ/n이다. 발생하지 않을 확률은 1- λ/n이다.
(2) x의 포아송 확률함수 f(x)=e^( λt)( λt)^x / x!
(3) 포아송 분포의 평균과 분포는 모두 λ이며, 다른 분포와 다르게 평균과 분산이 같은 값을 갖는다.
ex) 시간당 평균 환자수는 10명 발생한다. 오전 9~10시 사이에 환자가 12명 방문할 확률은 얼마인가?
A) λ=10. 여기서 λ는 경험상 미리 알고 있는 값이다.
f(12)=e^(-10*1)(10*1)^12/ 12!
환경역학에서 대기오염에 의한 환자 및 사망자수 발생건수를 연구할 때 주로 이 포아송분포가 사용된다. 대기오염 연구는 일별(daily)로 환자와 대기오염수준의 자료를 축적하여 시계열자료(time-series data)를 만드는데 여기서 일(day)는 시간이고, 일별로 발생할 수 있는 사망자수(또는 환자수)가 확률변수가 되므로 이런 분석에서는 사망자수의 분포에 포아송분포를 적용하게 된다.
참고로 자료 특성상 대기오염 연구에서 사망자수의 경우 분산이 평균보다 큰 과분포(overdispersion) 현상이 나타나는데, 이 때는 quasi-poisson 분포를 적용한다.
<초기하 분포>
가령 전체 sample n개 중에서 특성 조건을 만족시키는 sample의 개수를 x개라고 한다. 이 때 전체 sample 에서 임의로 sample k개를 추출할 때 특정조건을 만족시키는 sample이 나타내는 확률변수의 분포를 초기하분포라고 한다. 초기하분포는 특히 비복원추출일 때에 적용한다. (이항분포는 복원추출일 때 사용된다.)
n=전체개수
k=조건을 만족시키는 건수
n-k는 조건을 만족시키지 않는 건수
x=추출하는 표본수
Rx=임의로 x개를 뽑을 때 확률변수의 집합
# 초기하분포의 확률 특성
n>=k일 때, Rx={0, 1, 2, …..,k}
n<k일 때 Rx={0, 1, 2, ….., n}
위를 동시에 표현하면 Rx={0, 1, 2, …., min(k, n)} 이다.
f(x)=P(X=x)=kCx * n-kCn-x / NCn
(cf. nCr=n! / (n-r)!r!)
# 초기하분포의 평균과 분산
평균: nk/N
분산: n*(k/N)(1-k/N)*(N-n/N-1)
(n=추출횟수, k=조건만족 건수, N=전체건수)
ex) 어떤 제품이 전체 100개일 때, 불량제품이 5개 포함되어 있다. 이 때 10개의 제품을 추출했을 때 불량품이 1개일 확률은?
A) X=n=10
Rx={0, 1, 2, 3, 4, 5}
P(X=1)=5C1 * 95C9 / 100C10 = 0.339
참고: http://www.kocw.net/home/search/kemView.do?kemId=1165032
'Theories and Skills' 카테고리의 다른 글
[통계] 일반화가법모형 (Generalized Additive Model) (0) | 2016.12.15 |
---|---|
[수리통계] 최대우도법 (maximum likelihood method) (0) | 2016.12.14 |
[통계] 회귀분석에서 교호작용(interaction) 검증 시 주의사항 (0) | 2016.06.09 |