목록Theories and Skills (4)
Dilettante Zen
일반화가법모형 (Generalized Additive Model, GAM)은 일반화선형모형(Generalized Linear Model, GLM)을 확장시킨 것으로, GLM에서 독립변수에 대해 적용되었던 선형 관계를 GAM에서는 비모수적 함수를 이용해 비선형적으로 표현할 수 있다. GLM: η= ∑jβj χjGAM: η= ∑jfj(χj)여기서 fj(χj)는 unspecified nonparametric functions이고, fj를 추정하기 위해서는 smoothing splines이나 LOESS 같은 비모수적 함수를 사용한다. GLM에서는 독립변수와 종속변수에 비선형 관계를 적용하기 위해 parametric function인 natural spline이나 B-spline 과 같은 Regression sp..
단순 선형회귀분석에서는 최소자승법(최소제곱법)에 의해 x와 y간의 관계를 추정한다. 즉 회귀식에 의해 추정되는 y와 실제 관측된 y의 오차를 최소화할 수 있는 회귀식을 적합한다. y와 x가 선형 관계가 아닌 모형을 일반화선형모형(Generalized linear model)이라 한다. 여기서는 최대우도법(maximum likelihood method)를 이용해 회귀식을 추정할 수 있다. (최소자승법도 최대우도법의 일종이라고 한다.) 우도(가능도, likelihood)는 피셔(Fisher)에 의해 주장된 개념이다. 보통 모수와 모집단이 이미 알려져있고 여기서 어떤 현상이 관찰될 가능성을 확률이라고 하는데, 우도는 반대의 개념이다. 관측치가 고정되고, 그러한 관측치가 나오게 하는 가장 그럴 듯한 모수값을 추..
포아송분포는 어떤 사건이 일어날 확률이 시간과 관계가 있을 때 사용하는 분포이다. 단위 시간당 어떤 사건이 일어날 확률변수의 발생빈도(확률)의 형태를 포아송분포라고 한다. 포아송 분포에서 x는 발생사건수를 의미한다. 시간(0 ,t) 사이에 발생하는 사건의 수를 다룰 때 사용되는 분포이다. 이 때 필요한 모수인 평균 발생건수를 람다(λ)라는 기호로 표현한다.이럴 때 확률변수 x가 가질 수 있는 확률값들의 집합인 Rx는 아래와 같다.Rx={0, 1, 2, …… , n}이럴 때 확률분포 x가 따르는 분포를 포아송 분포라고 말한다. # 포아송 분포가 되기 위한 조건(1) 짧은 구간에서 발생하는 사건들은 서로 독립적이다. (일정한 시간 구간에서 발생할 수 있는 사건의 수는 다른 구간에서 발생할 수 있는 사건의 수..
통계분석에서 x, y 의 회귀 분석 시, z라는 제 3의 변수의 교호작용(Interaction) 유무를 검증하고자 할 때, 많은 저자들이 연속형 변수 z를 그룹형 변수로 바꾸는 방법을 시도 한다.나아가서 x와 z 모두 그룹화하여 n x n 테이블을 만들어 z 변수에 의한 interaction의 유무를 가늠하기도 한다. 그러나 이러한 접근법은 z 변수에 실제로는 교호작용이 없음에도 불구하고 교호작용이 있는 것 처럼 보일 수 있다(spurious interaction). 또한 interaction term 의 partial regression coefficient 의 값이 0 이라고 하는 귀무가설이 참임에도 불구하고 그 가설을 기각해버리는 제 1종 오류를 범할 가능성을 증가시킬 수 있다.제 1종 오류는 특히..