연구자님이 생물의학 분야에서 연구를 하고 있다면 가끔 데이터의 바다에 빠져 허우적대는 경우도 있을 겁니다. 기술이 발전한 덕분에 이제는 유전자, 단백질, 환자 특성 등의 정보가 담긴 거대한 데이터세트를 생성할 수 있게 되었지만, 이 방대한 정보를 이해하는 건 결코 쉬운 일이 아니죠.
여기에서 등장하는 것이 바로 다차원 척도법(Multidimensional Scaling, MDS) 입니다. 고차원 데이터(high-dimensional data)의 복잡성을 헤쳐 나가도록 도와주는 강력한 도구죠. 다차원 척도법은 최근 유전체 DNA 루프 재구성, 지능과 학업 성취도 사이의 관계 분석, 전기미각검사(EGM)와 전체 구강 검사 사이의 관계 탐구 등에 활용되었습니다.
다차원 척도법이란 무엇인가?
다차원 척도법(MDS)은 복잡한 데이터세트의 근본 구조를 저차원 공간에서 시각화하도록 해주는 통계 기법입니다. 간단히 말해, 데이터를 더 관리하기 쉬운 형태로 표현하여 데이터 내 패턴과 관계를 파악하는 데 도움을 주는 거죠. Hout 외(2013)는 분석 과정에서 발생 가능한 주요 문제점을 해결하는 여러 단계를 비롯하여 다차원 척도법에 대한 상세한 가이드를 제공합니다.
다차원 척도법을 통한 복잡한 관계 시각화
다차원 척도법의 주요 장점 중 하나는, 데이터 포인트 사이의 복잡한 관계를 드러내 준다는 점입니다. 수백 또는 수천 개의 변수(유전자, 단백질, 임상 측정값 등)로 구성된 데이터세트를 떠올려 보세요. 다차원 척도법은 이 모든 정보를 이해하기 쉬운 플롯으로 압축합니다. 여기에서 각 데이터 포인트는 샘플 또는 관측값을 나타내며, 포인트 간 거리는 유사성 또는 차이를 반영합니다.
다차원 척도법을 통한 차원 축소
다차원 척도법의 또 다른 장점으로는 차원 축소(dimensionality reduction)가 가능하다는 점이 있습니다. 고차원 데이터를 저차원 공간(대개 2차원 또는 3차원)에서 보여줌으로써 필수 정보를 잃지 않으면서도 데이터 시각화 과정을 단순화합니다. 차원 축소를 하면 연구자가 데이터를 해석하고 분석하기 쉬워지기 때문에, 고차원 공간에서는 보이지 않던 인사이트를 이끌어낼 수 있습니다.
다차원 척도법을 통한 데이터세트 비교 및 대조
다차원 척도법을 활용하면 서로 다른 데이터세트나 단일 데이터세트 내의 하위 집합을 비교하고 대조할 수 있습니다. 여러 데이터세트를 같은 플롯에 시각화함으로써 그룹 사이의 유사점과 차이점을 빠르게 파악할 수 있고, 이는 질병 메커니즘, 치료 반응, 기타 생물학적 현상에 대한 가치 있는 인사이트를 발견할 가능성을 높이죠.
다차원 척도법의 장점
주성분 분석(Principal Component Analysis, PCA)이나 t-SNE(t-distributed Stochastic Neighbor Embedding)와 같은 다른 기법과 비교했을 때 다차원 척도법에는 다음과 같은 장점이 있습니다.
- 거리 보존: 다차원 척도법은 저차원 공간에서 데이터 포인트 간의 짝 거리(pairwise distance) 또는 비유사성(dissimilarities)을 최대한 보존하는 것을 목표로 합니다. 이는 데이터 포인트 간의 관계가 클러스터나 밀도보다는 거리로 표현될 때 특히 유용하죠.
- 이상치에 대한 강건성: 다차원 척도법은 PCA와 같은 다른 차원 축소 기법 대비 특이치(outlier)에 덜 민감합니다. 특이치는 다차원 척도법 플롯에서 포인트들의 최종 구성에 미치는 영향이 적어 연구자가 데이터의 전체 구조에 집중할 수 있습니다.
다차원 척도법의 단점
다차원 척도법은 고차원 데이터를 시각화하는 강력한 도구이지만, 아래와 같은 한계도 있습니다.
- 연산 복잡성: 다차원 척도법은 특히 관측값이나 변수가 많은 대규모 데이터세트의 경우 연산 집약적일 수 있습니다. 분석 속도를 높이기 위해 매개변수를 최적화하거나 병렬 컴퓨팅 방식을 사용해야 할 수 있습니다.
- 해석의 어려움: 다차원 척도법 플롯을 해석하려면 기초 데이터와 선택한 비유사성 측정법에 대해 신중하게 고민해야 합니다. 데이터 특성을 명확하게 이해하지 않으면 잘못된 해석이나 결론에 이를 수 있습니다.
다차원 척도법, MDS는 고차원 데이터 내 복잡한 관계를 탐구하려는 생물의학 연구자에게 유용한 도구입니다. 직관적인 시각화 결과를 제공하고 차원 축소를 한결 용이하게 해 줌으로써 연구자가 숨겨진 패턴을 발견하고 과학적 발견을 촉진하여 환자 결과를 개선할 인사이트를 얻도록 돕죠. 그러나 다른 통계 기법과 마찬가지로, 장점과 한계, 그리고 특정 연구 질문에 대한 적합성을 고려하여 신중하게 사용해야 합니다.
더 읽어 보기
[생물의학 연구자를 위한 가이드] 빈도주의 통계 vs. 베이지안 통계, 무엇을 선택할까?
연구를 내러티브로 – 생물의학 연구에서 스토리텔링의 힘
인포그래픽으로 보여준다면? 생물의학 연구에서 시각적 커뮤니케이션의 역할