회귀 분석(regression analysis)은 생물의학 연구에서 변수 사이의 관계를 이해하고 결과를 예측하며 위험 요인이나 치료 효과를 파악하는 데 핵심적인 방식입니다. 복잡한 생물학적 시스템 내 패턴을 발견하는 데 도움이 되죠.
그러나 연구자는 잡음(noise)에 대한 모델의 과적합, 가정 검증 누락, 다중공선성(multicollinearity) 무시, 데이터 범위를 벗어난 외삽 등 때문에 간혹 부적절한 회귀 모델을 사용하기도 합니다. 교란 변수(confounding variable)를 고려하지 않거나 표본 크기가 불충분한 경우에도 결과의 신뢰성이 저해될 수 있습니다. 회귀 데이터의 신뢰성과 일반화 가능성을 보장하려면 적절한 회귀 방법을 선택해야 합니다.
최적의 회귀 분석 방법은 데이터 특성, 변수 간의 관계, 회귀 모델의 가정 등 여러 요소에 따라 다르게 선택할 수 있습니다. 가장 적합한 방법을 선택할 때는 아래의 요소를 고려해 보세요.
탐구 중인 관계의 유형
독립변수와 종속변수 간의 관계가 선형으로 보인다면 선형 회귀(linear regression)를 고려합니다. 관계가 선형이 아니라면, 다항 회귀(polynomial regression), 지수 회귀(exponential regression), 로그 회귀(logarithmic regression)와 같은 비선형 모델이 필요할 수 있습니다.
변수의 수
독립변수가 하나뿐이라면 단순 선형 회귀를 사용합니다. 독립변수가 여러 개라면 다변량 회귀(multivariate regression)를 사용합니다.
가정
선형 회귀는 선형 관계, 등분산성(homoscedasticity, 오차의 분산이 일정함), 오차의 독립성, 오차의 정규 분포를 가정합니다. 이러한 가정이 어긋나면 대체 방법을 고려합니다.
데이터 분포
데이터가 잔차(residual)의 정규 분포 가정을 충족하지 않는 경우, 로버스트 회귀(robust regression)나 분위수 회귀(quantile regression)와 같은 대체 방법을 고려하거나, 데이터를 변환해 봅니다(로그 변환, 박스-콕스 변환 활용 등). 이는 잔차가 정규 분포를 따르지 않을 때 더 견고한 매개변수 제공값을 내어줍니다.
이상치
데이터에 여러 이상치(outlier)가 포함되어 있다면, 로버스트 선형 회귀나 가중 최소 제곱법 회귀(weighted least squares regression)와 같은 로버스트 회귀 분석 방법 사용을 고려합니다.
다중공선성
여러 독립변수 사이에 높은 다중공선성(서로 강한 상관관계가 있음)이 존재한다면, 릿지 회귀(Ridge regression)나 주성분 회귀(principal component regression) 등의 방법을 고려합니다.
표본 크기
표본 크기가 작거나 데이터가 제한적이라면 과적합에 주의해야 합니다. 릿지 회귀 또는 라쏘 회귀(Lasso regression)와 같은 정규화 기법이 도움이 될 수 있습니다.
분석의 목적 – 예측인가, 추론인가
기본적인 관계에 대한 고려 없이 결과를 예측하려면, 결정 트리(decision tree), 랜덤 포레스트(random forest), 서포트 벡터 회귀(support vector regression)와 같은 머신러닝 기법이 적합할 수 있습니다. 반면, 변수 간 관계를 이해하는 것이 목표라면 전통적인 선형 회귀나 일반화 선형 모델이 더 적절할 수 있습니다.
회귀 방법을 선택할 때는 시행착오가 있을 수 있다는 점을 항상 염두에 두어야 합니다. 선택한 모델의 일반화 가능성을 보장하기 위해선 독립 데이터셋이나 교차 검증을 통해 모델을 검증하는 것이 중요하죠. 다양한 회귀 방법 중에서 하나를 고르는 건 어려운 일이지만, 신뢰할 수 있는 고품질 데이터를 생성하려면 각 방법의 장점과 적용 사례를 신중히 살펴 선택하는 것이 중요합니다.
더 읽어 보기
[생물의학 연구자를 위한 가이드] 빈도주의 통계 vs. 베이지안 통계, 무엇을 선택할까?
[생물의학 연구자를 위한 가이드] 다차원 척도법 활용하여 고차원 데이터 탐구하기
[생물의학 연구자를 위한 가이드] 모멘트법(Method of Moments)이란?












