Dilettante Zen
[통계] 회귀분석에서 교호작용(interaction) 검증 시 주의사항 본문
통계분석에서 x, y 의 회귀 분석 시, z라는 제 3의 변수의 교호작용(Interaction) 유무를 검증하고자 할 때,
많은 저자들이 연속형 변수 z를 그룹형 변수로 바꾸는 방법을 시도 한다.
나아가서 x와 z 모두 그룹화하여 n x n 테이블을 만들어 z 변수에 의한 interaction의 유무를 가늠하기도 한다.
그러나 이러한 접근법은 z 변수에 실제로는 교호작용이 없음에도 불구하고 교호작용이 있는 것 처럼 보일 수 있다(spurious interaction).
또한 interaction term 의 partial regression coefficient 의 값이 0 이라고 하는 귀무가설이 참임에도 불구하고
그 가설을 기각해버리는 제 1종 오류를 범할 가능성을 증가시킬 수 있다.
제 1종 오류는 특히 표본(sample) 크기가 커지거나, x, y, z 변수들간의 상관성이 커질수록 증가한다.
통계적인 교호작용을 검증하는 것은 척도(scale)에 의존적이다.
일반선형회귀 분석에서 보통 연속형 변수 y가 정규분포를 따르지 않을 때, 로그화(log-transformation) 하여 분석하는 경우가 있다. 시뮬레이션 결과에 의하면, 로그화 하지 않은 y를 사용해서 x와 y 연관성, z의 교호작용을 모델링했을 때에 z의 교호작용이 통계적으로 유의하지 않았던 반면, y를 로그화한 후 모델링했을 때엔 z의 교호작용이 통계적으로 유의한 경우가 확인되었다.
이러한 결과는 앞에서 언급한 것과 같이, 교호작용의 검증 과정이 y 변수 척도의 영향을 받는다는 것을 의미한다.
정규분포하지 않는 y 변수를 그대로 선형회귀분석 모형에 적합하는 것도 논의 사항이 되겠지만,
y 변수 변경에 따라 교호작용 검증 결과가 달라지는 것은 통계적 관점에서 중요하게 논의되어야 할 사항이며,
교호작용을 검증할 때는 y 변수의 단위 변경에 주의를 기울일 필요가 있다고 하겠다.
또한 x와 y가 선형이 아닌 비선형 관계를 가지고 있음에도 선형 관계를 모델링 하지 않은 경우, 실제로는 없는 z의 교호작용을 있는 것으로 잘못 판단할 여지가 있음을 유의해야 한다.
참고자료: Statistical thinking in Epidemiology. Yu-Kang Tu, Mark S. Gilthorpe. CRC Press. 2011.
'Theories and Skills' 카테고리의 다른 글
[통계] 일반화가법모형 (Generalized Additive Model) (0) | 2016.12.15 |
---|---|
[수리통계] 최대우도법 (maximum likelihood method) (0) | 2016.12.14 |
[수리통계] 포아송 분포 & 초기하분포 (0) | 2016.12.14 |