이 문장 들어보신 적 있나요?
‘커피를 마시는 사람은 더 오래 사는 경향을 보인다.’
커피를 즐기는 분들에게는 좋은 소식처럼 들릴 수 있지만, 이 문장은 결국 커피가 더 긴 수명으로 이어진다는 뜻인 걸까요? 꼭 그렇지만은 않습니다. 바로 여기에서 상관관계(correlation)와 인과관계(causation)의 고전적인 논의가 시작됩니다.
우리는 두 가지 사건이 함께 발생하면 한 사건이 다른 사건을 일으켰다고 잘못 가정하곤 합니다. 그러나 인과관계와 상관관계의 차이는 비단 연구나 통계에서뿐만 아니라 일상적인 의사결정에서도 매우 중요합니다. 이해하기 쉽게 자세히 설명해 드리죠.
상관관계와 인과관계의 차이점
단순하게 설명하면 다음과 같습니다.
- 상관관계는 두 가지가 어떤 식으로든 관련되어 있다는 의미입니다. 두 가지 모두에 변화가 발생하죠.
- 인과관계는 하나의 요인이 다른 요인에 직접적인 영향을 미친다는 의미입니다.
상관관계는 양의 상관관계(두 요인이 함께 증가하거나 함께 감소함)일 수도 음의 상관관계(한 요인이 증가할 때 다른 요인이 감소함)일 수도 있습니다. 하지만 그렇다고 해서 한 요인이 다른 요인을 유발한다는 뜻은 아닙니다.
예를 들어서, 여름에는 아이스크림 판매량과 익사 사고 건수 모두 증가합니다. 그러면 아이스크림을 먹는 것이 익사 사고를 유발한다는 뜻일까요? 당연히 아니죠! 두 현상은 모두 제3의 요인에 의해 영향을 받습니다. 바로 더운 날씨죠.
상관관계와 인과관계의 정의 및 예시
과학적 관점에서 두 개념을 이해해 봅시다. 상관관계와 인과관계는 관련이 있기는 하지만, 차이점을 구분하면 연구 결과를 평가하고 해석하는 데 큰 도움이 됩니다.
- 상관관계: 서로 함께 변하는 것으로 보이는 두 변수 사이의 통계적 관계
예시: 여러 연구 결과, 운동선수의 주간 훈련 시간과 경기 성적 사이에 양의 상관관계가 있다는 사실이 발견되었습니다. 이 말인즉슨, 모든 운동선수가 더 많이 훈련하면 더 좋은 성적을 낸다는 의미인 걸까요? 꼭 그렇지는 않습니다. 타고난 재능, 식단, 코칭 수준, 회복 전략 등 여러 다른 요인도 성적에 영향을 미칩니다. 과도하게 훈련해도 원하는 만큼 성적을 올리지 못하는 선수도 있고, 뛰어난 기술이나 타고난 재능 덕분에 적게 훈련해도 뛰어난 성과를 내는 선수도 있죠.
- 인과관계: 하나의 변수가 다른 변수의 변화에 직접적인 영향을 미침
예시: 한 연구 결과는 근력 훈련이 운동선수의 근육 발달에 직접적인 영향을 미친다는 사실을 일관되게 보여줍니다. 역도와 같은 저항 운동을 할 때 근육은 미세하게 손상되는데, 이후 회복 과정이 진행됩니다. 여기에 적절한 영양 섭취와 휴식이 뒤따르면 근육량과 근력이 증가하죠.
이 사례가 왜 인과관계에 해당할까요? 수많은 통제 연구가 다른 조건(식단, 회복 등)이 충족될 경우, 근력 훈련이 근육 발달로 직접 연결된다는 점을 확인했습니다. 두 변수가 외부 요인에 의해 함께 변할 수도 있는 상관관계와 달리, 이 사례의 경우 근육 발달의 원인은 근력 훈련이라는 사실을 우리는 알고 있죠.
그렇지만 너무 서둘러 결론을 내리지는 마세요. 인과관계 안에는 늘 상관관계가 포함되어 있지만, 상관관계가 반드시 인과관계를 의미하지는 않습니다.
상관관계가 늘 인과관계를 의미하지 않는 이유
크게 세 가지 이유가 있습니다.
1. 세 번째 변수의 존재(교란 요인)
간혹 숨겨진 세 번째 요인이 두 변수에 영향을 주기도 합니다.
예시: 큰 신발을 신는 아이들은 손 글씨를 더 잘 쓰는 경향을 보입니다. 하지만 이것이 발 크기가 손 글씨 실력에 영향을 미친다는 걸 의미하지는 않습니다. 실제로는, 나이가 더 많은 아이는 당연히 발이 더 크고, 운동 능력도 더 발달했기 때문에 글씨를 더 잘 쓰는 것입니다.
2. 우연 (허위 상관관계)
간혹 순전히 우연에 의해 서로 관계가 있어 보일 수도 있습니다. 통계학에서는 이를 허위 상관관계(spurious correlation)라고 부릅니다. 두 변수가 연결된 듯 보이나 실은 직접적 또는 유의미한 관계가 없는 경우를 뜻합니다.
예시: 상어 공격과 아이스크림 판매량 증가 사이의 상관관계를 생각해 봅시다. 데이터를 보면 얼핏 아이스크림을 먹는 것이 상어 공격을 유발한다는 느낌을 받을 수 있습니다. 하지만 잘 생각해 보면, 두 이벤트는 여름에 더 자주 발생하며, 더 많은 사람이 해변을 찾기 때문입니다.
허위 상관관계는 대규모 데이터세트 분석 시 더 자주 발생합니다. 따라서 연구에서 상관관계를 인과관계로 오해하지 않도록 주의해야 합니다.
3. 방향성 문제(역인과관계)
원인과 결과가 뒤섞였다면 어떨까요? 이를 역인과관계(reverse causation)라 부릅니다. 이상적으로는 두 변수 사이에 명확하고 일방적인 관계가 존재할 때 인과관계를 입증할 수 있습니다. 즉, 하나의 변수가 다른 변수에 직접적 영향을 미치는 거죠. 그러나 상관관계 연구에서는 연수들이 서로에게 다양한 방식으로 영향을 미칠 수 있습니다.
예시: ‘행복’과 ‘성공’ 사이 관계는 여러 방향으로 작용할 수 있습니다.
- 행복이 성공으로 이어질 수 있습니다.
- 성공이 행복으로 이어질 수 있습니다.
- 행복과 성공이 서로 영향을 미칠 수 있습니다.
그렇기에 실험 설계가 중요한 것입니다. 다양한 가능성을 테스트하여 인과관계를 확립하는 데 도움을 주죠.
과학적 연구, 뉴스 기사에서는 물론, 매일의 결정에서도 상관관계와 인과관계를 이해하는 건 중요합니다. 언젠가 놀랄만한 통계를 접하면 속으로 한 번 생각해 보세요.
‘여기에는 진짜 인과관계가 있는 걸까, 아니면 그저 상관관계일 뿐일까?’
데이터를 비판적으로 바라보면 잘못된 정보를 피할 수 있고 더 정확한 연구 결론을 이끌어내는 데 도움이 됩니다.
더 읽어 보기
‘근자감’ 바탕에는 무엇이? 더닝 크루거 효과의 정의와 예시