P값을 쫓는 사람들: 통계적 유의성과 P값 해킹의 위험성

연구 분야에서는 통계적 유의성이 얼마나 중요한지에 대해 배웁니다. 통계적 유의성에서는 p값(p-value, 유의확률)이 매우 중요합니다. 여기에서 ‘p’는 ‘확률(probability)’을 뜻합니다. 일반적으로 p값이 0.05 미만이면 유의미한 것으로 간주합니다. p값이 작을수록 결과가 더 유의미하다, 즉 중요하다는 뜻이 됩니다.

저널은 통계적으로 유의미한 효과를 하나 이상 보고한 논문을 출판(게재)하는 것이 일반적입니다. 이러한 기준은 연구자에게 유의미한 결과를 도출해야 한다는 엄청난 압박으로 작용합니다. 이 때문에 연구자들은 때때로 원하는 결과를 얻기 위해 p값 해킹(p-hacking, p-해킹)이라는 부정행위에 의존하기도 합니다.

톰(Tom)과 리사(Lisa)라는 두 명의 연구자가 나눈 대화를 여기에 소개합니다. 대화 주제는 통계적으로 유의미한 결과를 도출해야 한다는 압박감과 이러한 압박감이 과학의 무결성에 어떤 해를 끼칠 수 있는지입니다.

통계적 유의성을 추구해야 한다는 압박감

톰: “이 방법을 제대로 사용하지 못하고 있나 봐요! 유의미한 결과를 얻어야 하는데 p값이 0.8 정도예요. 제가 뭘 잘못하고 있는 걸까요?”

리사: “프로토콜은 확인해 봤어요?”

톰: “네, 프로토콜은 문제 없었어요. 지도교수님은 이 결과를 영향력 있는 저널에 출판하고 싶어 하세요. 그렇게 되면 다음 프로젝트에 사용할 연구비를 확보하는 데 도움이 될 테니까요. 하지만 지금 얻은 결과는 통계적으로 유의미하지 않아요. 그래서 방법을 바꿔볼까 생각 중이에요.”

리사: “어떤 식으로 바꿔보려고요?”

톰: “데이터를 더 많이 수집하려고 해요. 이상치를 보이는 데이터 포인트는 삭제할 수도 있어요. 잘못된 데이터라고 확신하거든요! 그러고 나면 다른 방법으로 데이터를 분석해 볼 수 있겠죠.”

P값 해킹

리사: “하지만 그러는 건 p값 해킹이 아닌가요?”

톰: “p값 해킹이 뭔데요?”

리사: “p값 해킹은 연구자가 데이터를 본 후 유의미한 결과를 얻기 위해 의도해서든 의도치 않게든 어떤 선택을 하는 것을 말해요. 방금 당신이 언급한 것과 같은 선택이나 조정도 p값 해킹에 포함돼요. 이상치를 보이는 데이터 포인트를 삭제하거나 데이터 분석 방식을 변경하는 것을 예로 들 수 있죠.”

톰: “p값 해킹에 대해서는 처음 들어봐요.”

리사: “아시다시피, 낮은 p값을 도출해야 한다는 압박감이 클 수는 있어요. 통계적으로 유의미한 결과를 도출한 연구가 그렇지 못한 연구보다 출판될 가능성이 훨씬 더 높으니까요. 이는 연구자가 받는 연구비는 물론이고 앞으로의 경력에도 직접적인 영향을 미칠 수 있어요. 그러니 낮은 p값을 얻기 위해 연구 부정행위를 저지르고 싶다는 유혹이 매우 클 수 있죠.”

P값 해킹의 유형

톰: “부지불식간에라도 p값 해킹을 저지르지 않으려면 p값 해킹에 대해 자세히 알아둬야 할 것 같아요. 팁을 좀 알려줄 수 있나요?”

리사: “p값 해킹은 p값이 0.05 이하인 경우가 많아요. 연구자가 유의미한 결과를 얻고 나면 ‘조정’을 중단하는 경우가 많기 때문이에요. p값 클러스터에서 p=0.05 전후라면 p값 해킹이 있었음을 시사해요. 그렇지만 다른 유형의 p값 해킹은 더 발견하기 어려울 수 있어요.”

톰: “어떤 유형이 있는데요?”

리사: “첫 번째 유형은 ‘오버해킹(overhacking)이에요.’ 연구자가 더 낮은 p값을 얻기 위해 데이터를 계속 해킹하는 것을 오버해킹이라고 해요. 0.05 미만의 값에 도달해도 멈추지 않고 해킹을 계속하죠. p값이 낮을수록 설득력 높은 결과임을 시사하기 때문이에요.”

톰: “그 밖에 또 어떤 유형이 있을까요?”

리사: “다음 유형은 선택 편향(selection bias)이에요. 연구자가 데이터에 대해 다른 분석을 수행하거나 다른 변수를 분석한 결과 서로 다른 p값을 갖게 되는 경우를 선택 편향이라고 해요. 그렇지만 선택 편향에서는 0.05 미만인 p값이 여러 개 있어도 가장 낮은 p값만 선택해서 발표하죠. 이렇게 하면 데이터에 대한 정확한 그림을 제공하지 않는 거예요.

“세 번째 유형은 선택적 디버깅(selective debugging)이에요. 연구자가 적합하지 않은 통계 테스트를 선택하거나 데이터 코딩에 문제가 있으면 ‘버그’가 발생할 수 있어요. 연구자는 항상 이러한 오류를 잡아낼 수 있도록 노력해야 해요. 선택적 디버깅은 연구자가 유의미한 결과를 얻는 데 도움이 될 때만 버그를 수정하는 것을 말해요. 일단 유의미한 결과를 얻고 나면 더 이상 버그를 찾거나 수정하지 않는 거죠.”

톰: “그 말은 연구자가 위양성 결과를 내는 버그를 골라서 선택한다는 뜻인가요?”

리사: “맞아요.

P값 해킹이 불러오는 결과

톰: “연구자가 p값 해킹을 하다가 적발되면 어떻게 되나요?”

리사: “p값 해킹은 심각한 결과를 초래할 수 있어요. p값 해킹을 하면 해당 연구의 가치가 훼손돼요. 그러면 저널에서 의심스러운 논문을 철회당하고 향후 연구에 지원을 받지 못하게 되는 사태로 이어질 수 있어요.  p값 해킹은 귀중한 시간과 돈을 낭비하게 만드는 건 물론이고 과학에 대한 일반 대중의 신뢰까지 떨어뜨릴 수 있어요.”

톰: “정말 심각한 문제네요. p값 해킹은 얼마나 흔하게 이루어지나요?”

리사: “일부 연구에 따르면 p값 해킹이 만연하고 있는 것으로 나타났어요. p값 해킹은 메타분석에서도 심각한 문제가 될 수 있어요. 이러한 대규모 연구에서는 연구자들이 분석을 하려면 이전 작업에 의존하게 되죠. 이전 연구에서 p값 해킹이 이루어졌다면 그 연구 결과를 재현하는 게 불가능해요. 2015년의 한 연구에서는 100개의 연구 그룹에 요청해서 선행 연구 결과 100가지를 재현해 보도록 했어요. 이 중 제대로 재현된 것은 40가지에 불과했어요. 다른 60가지는 재현 결과가 거둔 효과가 초기 연구 결과에 비해 훨씬 미미했어요.”

P값 해킹 방지

톰: “p값 해킹이 왜 문제가 되는지 이해했어요. 어떻게 하면 p값 해킹을 방지할 수 있을까요?”

리사: “p값 해킹을 방지하는 가장 좋은 방법은 데이터를 보고 나면 그 데이터를 변경하지 않는 거예요. 물론 유혹에 저항하기가 쉽지는 않겠죠! 이런 경우 사전 등록을 고려해 봐도 좋아요. 사전 등록 단계에서는 사용하려는 통계 분석을 포함하여 상세한 연구계획을 준비해요. 그런 다음에 이 계획을 오픈 사이언스 프레임워크(Open Science Framework, OSF) 같은 온라인 등록처에 제출해요. 사전 등록해 둔 상태에서 연구 결과를 출판하게 되면 누구나 사전 등록 계획과 비교해서 연구 방법을 확인해 볼 수 있어요. 이렇게 하면 데이터 p값 해킹이 훨씬 더 어려워지죠.”

톰: “좋은 생각이네요. 그밖에 또 할 수 있는 일이 있을까요?”

리사: “작업을 미리 계획해 두고 그 계획을 충실히 지키기만 하면 돼요. 진짜 실수를 저질렀다는 것을 깨달았을 때만 변경하세요. 또한 자신이 한 작업을 재현해 볼 수도 있어요.”

유의성이 부족한 결과 처리

톰: “유의미한 결과를 얻기 위해 방법을 바꾸면 안 된다는 건 잘 알겠어요. 그렇다면 제 작업을 출판할 수 없다는 뜻일까요?”

리사: “꼭 그런 건 아니에요. p값 해킹이 더 널리 알려지면서 저널에서 유의미한 결과를 덜 선호하게 될 수도 있어요. 저널에서 사전 등록 플랫폼을 제공해서 도움을 줄 수도 있고요. 연구자들은 연구 계획과 데이터 수집의 질에 초점을 맞추는 것은 물론이고 다른 유형의 통계 분석을 고려해 볼 수도 있겠죠.”

톰: “도와줘서 고마워요!”

통계적 유의성에 대한 자세한 내용은 이 기사에서 확인하실 수 있습니다. p값 해킹을 접해 보신 적이 있나요? 아래 댓글로 여러분의 생각과 경험을 나눠주세요.

X

회원가입 후 더보기

무료로 보실 수 있는 기사 횟수에 제한이 있습니다. 구독하시면 논문작성
및 저널 출판에 관한 다양한 자료를 횟수제한 없이 이용하실수 있습니다.

  • 500개 이상의 출판뉴스
  • 50개 이상 웹세미나
  • 10개 이상 전문가 진행 팟캐스트
  • 10개 이상 이북
  • 10개 이상 체크리스트
  • 50개 이상 인포그래픽
여러분의 의견을 나눠주세요

다음 중 학술 글쓰기에서 AI 기반 도구를 사용하는 데 있어 중요한 과제는 무엇이라고 생각하시나요?