You are here

내 연구가 유의미할까? p-value(유의 확률)에 의존해서는 안 되는 이유

마리샤 폰세카 | 2016년6월2일 | 조회수 78,647
내 연구가 유의미할까? p-value(유의 확률)에 의존해서는 안 되는 이유

연구 논문에서 가장 일반적으로 보고되는 통계는 아마도 가장 많이 오해되고 있기도 하고 오용되고 있기도 할 것입니다. 바로 p-value(유의 확률)에 대한 이야기입니다.

최근 미국통계학회(ASA)는 p-value의 해석과 적절한 사용에 관한 여섯 가지 원칙을 세워 <통계적 유의성과 p-value에 관한 성명서>를 발표하였습니다. 

ASA의 원칙과 이 원칙이 연구에 어떻게 적용되는지 살펴보도록 하겠습니다.

1. p-value는 데이터가 특정 통계 모형과 얼마나 대립하는지 나타낼 수 있다.

여기서 중요한 단어는 “특정”입니다. 모든 연구나 분석에서 연구자는 통계 모형을 만들 때 반드시 어떠한 가정을 세워야 한다는 것을 기억하시기 바랍니다. 통계학자에 따르면 p-value가 0.05인 것이 주어진 가설이 맞을 확률이 95%임을 의미하는 것은 아니라고 합니다. 대신 이 값은 영가설이 참이고 다른 모든 가정이 유효하다면 적어도 현재 얻은 결과와 같은 크기의 결과를 얻을 확률이 5%라는 것을 의미합니다.

2. p-value는 연구 가설이 참일 확률이나 데이터가 오로지 우연으로 생성되었을 확률을 측정하지 않는다.

연구자들은 흔히 작은 p-value가 영가설이 거짓인 것을 의미하는 것으로 잘못 해석합니다. 실제로 p-value는 영가설이 참일 때 관찰된 결과와 적어도 같은 크기의 결과를 얻을 확률을 나타낼 뿐입니다.

3. p-value가 특정 임계점을 통과했는가가 단독으로 과학적 결론이나 사업적/정책적 결정을 내리는 근거가 되어서는 안 된다.

“p<0.05”가 무엇이 참이라는 보증이 될 수는 없습니다. 궁극적으로 p-value는 단지 통계 자료일 뿐이며 절대적 징표가 아닙니다. 특히 표본 크기와 같은 연구의 다양한 측면이 p-value에 영향을 줄 수 있습니다. 만일 표본이 확연히 크다면 (효과 크기는 무시할 수 있다 해도), 완벽히 아무런 효과도 없는 경우를 제외하고, p-value는 아마도 거의 항상 유의미할 것입니다. 따라서 p-value만을 기초로 실질적인 의사결정을 내려서는 안 된다는 것은 상식입니다.

4. 적절한 추론에는 완전한 보고와 투명성이 필요하다.

p-value가 0.05 미만으로 나타난 결과만 선택적으로 보고하는 경우가 많습니다. ASA는 이러한 종류의 “골라내기(cherry picking)”를 강력히 반대합니다. ASA는 그 대신 그것이 유의미하든 아니든 획득한 모든 p-value와 탐구한 모든 가설과 그리고 수행한 모든 통계적 분석을 보고할 것을 권장합니다. 그래야만 저자는 자신의 데이터를 기반으로 유효한 결과를 도출해낼 수 있습니다.

5. p-value, 혹은 통계적 유의성은 효과의 크기나 결과의 중요성을 측정하지 않는다.

일부 저자는 p-value가 매우 작은 (<0.001) 결과물에 “매우 유의미한” 또는 “유의성이 높은”이라는 설명을 넣습니다. 하지만 작은 p-value가 결과의 실질적 또는 임상적 중요성을 의미하는 것은 아닙니다.

예를 들어, 연구자가 에너지 드링크 소비의 증가와 소녀들의 긍정적 신체 이미지 사이에 통계적으로 유의미한 관계가 있음을 발견했다고 가정해봅시다. 이것은 연구자가 소녀들에게 무료 에너지 드링크 제공과 같은 신체 이미지 개선을 위한 개입을 설계해야 한다는 것을 의미하는 것은 아닙니다. 그보다 연구자는 관계의 ‘강도’에 (예로, 상관 계수나 회귀 계수) 주목해야 합니다. 만일 관계가 약하다면 (예로, 상관계수 0.1), 신체 이미지와 더욱더 강력한 관계가 있는 다른 요인들을 (예로, 일반적인 자존감이나 체중과 몸매 이야기의 빈도) 고려할 때 연구자의 개입은 아마도 좀 더 효과적일 것입니다.

또한, 결과의 중요성을 결정할 때는 문맥을 고려하는 것이 중요합니다. 큰 그룹 간의 작은 차이가 통계적으로 유의미하지만, 실질적으로는 중요하지 않을 수 있고, 작은 그룹 간의 큰 차이는 통계적으로 유의미하지 않다고 하더라도 실질적인 측면에서 중요할 수 있습니다. 예를 들어, 100점 만점의 수학 시험에서 교육적 개입이 있고 난 뒤 평균 1.5점이 상승했다면 이것은 통계적으로 유의미할 수 있습니다. 하지만 이 개입 자체는 실제 삶에서 특별히 유익하거나 유용한 것은 아닙니다.

6. p-value 자체는 모형이나 가설에 관련한 증거에 대한 훌륭한 척도를 제공하지 않는다.

저자는 결과에 p-value만 보고하는 것을 피해야 합니다. 작은 p-value가 영가설이 거짓이라는 것을 나타내는 것은 아니며, 또 큰 p-value가 영가설이 참임을 의미하는 것도 아닙니다. 연구에는 관찰된 데이터만큼이나 그와 일관되는 다양한 가설이 있을 수 있습니다. 따라서 p-value가 검정 되는 모형이나 이론을 위한 유일한 형태의 통계적 뒷받침은 아닙니다. 그리고 연구의 가치가 오로지 도출된 p-value에 전적으로 의존하는 것도 아닙니다.

요약하자면, p-value가 유용하게 쓰일 수는 있지만, 이것이 연구를 가치 있고 중요하게 만드는 기준이 될 수는 없으며 또 그렇게 다루어져서도 안 됩니다. 통계적 유의성과 과학적, 실질적, 또는 임상적 유의성은 서로 같지 않습니다.  

스크랩하기

해당 기사를 스크랩해보세요!

지식은 모두에게 함께 공유되어야 한다는 것이 에디티지 인사이트의 이념입니다. 해당 사이트에서 제공되는 모든 기사는 Creative Commons license로 재포스팅 및 스크랩이 가능합니다. 아래의 가이드라인만 유념해주신다면 언제든지 무료로 에디티지 학술 전문가의 지식을 가져가실 수 있습니다!


  • 주의 : 에디티지 학술 전문가들은 해당 콘텐츠를 만들기 위해 많은 시간과 노력을 쏟고 있습니다. 기사를 스크랩 및 재포스팅 하실 때는 명확한 출처를 남겨주시기 바랍니다.
  • 이미지 재사용: 이미지를 원본이 아닌 편집 재사용하실 때는 에디티지 인사이트의 허가가 필요합니다.

코드를 복사하셔서 기사 공유를 원하시는 사이트에 적용하시면 에디티지 인사이트 기사를 가장 쉬운 방법으로 공유하실 수 있습니다.
 
위 코드를 복사하시어 원하시는 곳에 다시 포스팅 하실 수 있습니다.

덧글