Notice
Recent Posts
Recent Comments
Link
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Archives
Today
Total
관리 메뉴

Dilettante Zen

[통계] 일반화가법모형 (Generalized Additive Model) 본문

Theories and Skills

[통계] 일반화가법모형 (Generalized Additive Model)

Zen.dlt 2016. 12. 15. 00:37

일반화가법모형 (Generalized Additive Model, GAM)은 일반화선형모형(Generalized Linear Model, GLM)을 확장시킨 것으로, GLM에서 독립변수에 대해 적용되었던 선형 관계를 GAM에서는 비모수적 함수를 이용해 비선형적으로 표현할 수 있다.  

GLM: η= ∑jβj χj

GAM: η= ∑jfj(χj)

여기서 fj(χj)는 unspecified nonparametric functions이고, fj를 추정하기 위해서는 smoothing splines이나 LOESS 같은 비모수적 함수를 사용한다.  


GLM에서는 독립변수와 종속변수에 비선형 관계를 적용하기 위해 parametric function인 natural spline이나 B-spline 과 같은 Regression spline을 사용한다. GLM에서는 이러한 spline들을 여러개 결합하여 비선형 형태를 표현해낸다고 볼 수 있다. 

단순회귀분석이 weighted least squares를 이용해 모형을 적합한다면, GLM이나 GAM은 최적의 추정값을 얻기 위해 반복추정(iterative approximation)을 사용한다. GAM에서의 추정은 Local scoring algorithm과 backffiting algorithm을 통해 이루어진다. Backffiting algorithm은 penalized log likelihood를 최대화함으로써 모형을 추정한다(회귀분석에서 최대우도법(MLE)를 이용해 모형을 추정하는 것과 비슷하다). 

Penalized log likelihood as

lp(η, y)=l(η, y)+P 

(y= the vector of the observations, l(η, y)=the likelihood function of the linear prediction η, P=a quadratic penalty term used to account for smoothness)

 

GAM에서 변수 선택 시 모든 변수를 모형에 넣기 위해, 모든 변수를 유지하면서 그 효과를 0에 가깝게 축소(shrink) 시키는 penalty term이 사용되기도 하는데 이는 모형의 variance는 줄이지만(mean squared error의 개선) bias를 발생시킨다고도 알려져 있다. 

 

 Local scoring algorithm의 수렴(Convergence)는  iteration의 횟수와 정확도(iteration precision)을 나타내는 user-defined parameter에 의해 결정된다. (parameter에 default값이 있고, 유저가 조절가능하다)

   ε: convergence precision을 조절(control)

  M: iteration의 최대횟수를 조절(control)

Backffiting algorithm의 convergence는  εbj와 Mbj에 의해 정해진다. 

  εbj: convergence precision을 조절(control)

  Mbj: iteration의 최대횟수를 조절(control)


Dominici 등(2002)의 시뮬레이션 결과를 보면 GAM을 PM10이 사망에 미치는 영향 분석에 사용는 데에는 큰 주의가 필요한 것으로 나타났다.

1) 통계 프로그램의 default convergence parameter가 더욱 stringent 하게 적용되어야 bias를 줄일 수 있다. 

2) GAM의 Penalized likelihood 는 모형의 적합도를 향상시킬 수 있으나 bias를 증가시킬 수 있다. 

3) Backffiting algorithm의 convergence가 보장되기는 하나, concurvity (collinearity) 를 발견하는 데에 실패한 GAM에서 얻어지는 relative risk estimate의 standard error는 과소추정될 수 있다. 


Dominici 등은 이런 한계가 있다고 해서 GAM을 활용할 필요성이 훼손되는 것은 아니라고 언급한다. GAM이 종속변수와 비선형관계를 갖는 독립변수, 특히 혼란요인(confounder)를 다루는 데 매우 유연한 방법을 적용하기 때문이다. Dominici는 분석자가 직접 convergence criteria 를 보다 stringent하게 조정하거나, 통계 프로그램들의 default값이 바뀌어야 한다고 하고 있다(그 중 논문 출판 당시 S-Plus는 default값을 수정한 것으로 보고되었다). 

참고: Dominici et al., Am J Epidemiol. Vol 156, No. 3. 2002.