연구자들이 해킹을? P값 믿을 수 있나?
K: 잘 되고 있어? 지난번 물질 처리한 후에 반응 결과 보니까 그래프상에서는 큰 차이가 있어 보이더라, 좋은 결과인 거 같아! 곧 랩미팅 때 발표 잘하겠는데?
A: 전혀. 사실 이번에 교수님이 말했던 통계분석을 돌렸어. 통계적 유의성을 확인해야 더 좋은 데이터니까. 당연한 거지. 중요한 건 내 결과가 통계적으로 유의하지 않는 것으로 나왔어. p 값이 0.067이더라고. 유의 값이 0.05 이하가 되어야 내가 한 실험이 우연에 의한 결과가 아니라, 이 물질에 의한 결과라는 것을 말해주는데. 큰일 났어. 과제 발표는 다음 달이고, 결과가 만족스럽지 않으면 내년 연구비를 못 딸 수도 있어. p 값이 엄청 좋게 나와야 결국 이 물질이 유의미한 차이를 내는 것을 ‘증명’하는 건데 큰일이지. 그래서 사실 반복 실험 중에서 두세 개 정도를 뺄가 해. 그럼 편차가 줄어서 p 값이 0.03이 되더라고.
K: 음 지금 p 값 해킹을 하려고 하는 거야? 내 생각엔 그렇게 실험하는 건 연구자로서 정말 비윤리적인 것 같아. p 값 해킹은 결국 체리피킹이라고도 하는 행동을 통해 유의성을 조작하는 거잖아. 사실 이미 많은 연구자가 P값이 보여주는 통계적 유의성을 위해 데이터를 골라서 P값을 분석하거나, 다른 통계분석 방법을 통해 P값을 더 낮춰보거나 여러 방법을 쓰고 있어. 하지만 이것 모두 거짓 양성을 만들어 낼 수 있어. 다 p 값 해킹에 해당하지. 가장 객관적이고 신뢰할 수 있는 결과를 내야 하는 연구자잖아. 그리고 네가 실력이 없는 것도 아니고. 상황이 너무 버겁더라도, 그렇게까진 안했으면 좋겠어.
꽤 흔한 데이터 조작: P값 해킹
K: 논문에서 p 값을 데이터의 신빙성을 논하기 위해 주로 사용하는데, p 값이 잘못 사용될 경우 두 가지 오류가 발생할 수 있어. 하나는 거짓 음성, 즉 유의한 연구 결과임에도 p 값이 낮아 묵과되는 경우이고, 다른 하나가 거짓 양성, 바로 p 값 해킹을 통한 무의미한 연구 결과가 유의미한 데이터로 위장되는 거지. 대부분의 연구자가 알게 모르게 하는 것이 p값 해킹이야.
대부분의 논문이 통계적으로 유의한 결과를 요구하고, 그 통계적 유의성은 p 값으로 나타나기에 연구자들은 무엇이든지 해서 p 값을 0.05 이하로 만들려고 해. P 해킹은 대체로 세 가지 경우에 나타날 수 있어. 적절하지 않은 통계분석을 하는 거야. 아웃라이어를 제외하거나, 독립변수를 전략적으로 다수 모델에서 제외할 수도 있어. 모두 진실한 데이터가 아니라 통계가공물, 혹은 거짓 양성을 만들기 충분한 방법이야. 이렇게 연구자들이 적합하지 않은 통계분석을 통해 통계가공물을 만들어내는 것, 혹은 선택적 디버깅(selective debugging)을 통해 p 값을 해킹하는 거지
두 번째는 바로 오버 해킹(over hacking), 과도하게 p 값을 지속해서 해킹하는 것이야. 이미 0.05 이하의 p 값이 나왔어도, 연구 결과를 더 좋아 보이게 하기 위해 최대한 낮은 유의 값이 나올 때까지 해킹하는 것이 오버 해킹에 해당해.
세 번째는 선택 편향(selective bias)이야. 예컨대 통계 분석을 통해 p 값이 0.07인 것과 0.04인 결과가 나왔다면, p값 해킹을 통해 당연히 0.04인 결과를 제출하겠지. 하지만 연구 결과 p 값이 0.01과 0.04가 나왔다면? 모두 다 제출해도 상관없음에도 대부분이 p 값이 0.01인 결과만을 제출할 것이라는 거야.
한 번의 해킹, 논문 철회, 그리고 재현성 위기
A: 나도 양심이 있는데 정말 안 하고 싶지. 하지만, 딱 한 번이고, 전체 논문에서도 한 데이터인데 이번 고비를 넘기기에 괜찮지 않을까 싶어. 우리가 집중을 안 하고 실험을 했다고 데이터를 버리기도 하잖아. 그거랑 뭐가 다르겠어?
K: 사실 P 해킹으로 많은 논문이 철회되고 있다고 봐도 무방하다고 생각해. 논문 철회 숫자도 2001년부터 2009년까지 약 10배 증가했고, 논문 철회 이유의 약 삼 분의 이가 ‘잘못된 연구’ 때문이라고 해. 이 중 약 절반 정도가 ‘사기’ 혹은 ‘사기가 의심되는’ 연구라서 철회되었고. 이미 과학계에서는 재현성 위기를 겪고 있어. 약 70%의 연구 결과가 재현성이 없다고도 했지. 이에 따라 p 값에 대한 회의론도 많아지고 있어. 화두가 되기도 했고. 축구 관련 데이터를 가지고 심판이 피부색이 더 검은 사람들에게 레드카드를 주는 경향이 있는지를 분석했는데, 20개의 연구팀은 그런 경향이 있다고 판단했지만, 9개의 연구팀은 상관이 없다고 결론을 내렸어. 또 한 영양 논문에서는 p 값을 해킹해서 아주 신빙성 있게 – 하지만 거짓되게 – 초콜렛이 체중감소에 도움을 준다고 주장하기도 했었어.
이미 사람들은 연구 재현성, p 값에 대한 회의적인 태도, 그리고 데이터 조작 가능성의 이해를 꽤 하는 편이야. 연구자에게 가장 치명적인 논문 철회까지 이어질 수 있는데, 위험을 감수하지 않는 것이 좋겠어.
진실한 데이터를 위한 다른 통계적 지표
K: 몰라서라도 p 해킹을 하지 않기 위해서는 실험과정에서부터 조심해야 해. 분석 과정에서 조작하지 않더라도, 실험 후 데이터를 기록하는 과정에서, 혹은 실험 과정에서 나도 모르게 p해킹을 할 수 있으니까.
먼저 실험할 때 통계 변수를 미리 결정해 놓고, 바꿔야 할 경우 바로바로 보고해야 해. 나는 이 데이터를 분석할 때 Student T-test를 하겠다. 이런 식으로 정해 놓는 거지. 그리고 데이터를 모을 때, 언제 그만 모을 것인지 결정하고, 또 아웃라이어의 기준을 세워놓아야 해. 먼저 아웃라이어를 정의하고 (표준 편차 2.5레벨 이상 등) 언제까지의 데이터를 사용할 것인지 결정하면, 데이터를 임의로 추가하거나 제외하는 일이 없어지겠지. 그리고 당연한 말이지만 반복 실험을 하고, 다양한 통계분석을 통해 일관되고 진정한 p 값을 도출해야 해.
그런데 이런 방법을 통해 개인의 양심과 성실성에 데이터의 진실성을 모두 맡기기에는 무리가 있을 수 있어. 그래서 가장 좋은 방법은 선 등록제도가 있어. 선 등록은 연구자가 연구 전 미리 연구 계획을 준비하게 해. 여기엔 통계 분석 방법도 포함되어 있지. 오픈 사이언스 프레임워크 나 다른 온라인 등록 사이트에 계획을 등록하고 결과를 보고하면 돼. 독자들이 항상 결과와 선등록된 계획을 확인할 수 있어, 해당 연구 결과가 p 값 해킹이 되지 않았음을 알 수 있지.
A: 사실 사람들이 p 값에 대해서 그렇게 많이 조작하고 있다면, p값을 사용하는 것이 의미가 있을까 싶어. 조작이 쉬운 것이라면, p값 외에 나중에라도 내 데이터가 아주 유의미하다는 것을 어떻게 설명하면 좋을까?
K: 좋은 질문이야. 원래 통계학자들 사이에서 p값이 0.05이하 인 것이 꼭 ‘유의미함’을 정의해주진 않는다고 해. 오히려 귀무가설(null hyphothesis)가 틀렸다는 것을 말해주는 것일 뿐이지. 즉 이게 우연으로 일어난 게 아니라는 것만 말해줄 수 있어.
그래서 p 값 대신에 베이지안 추론을 하는 것은 어떻냐는 의견도 있어. 확률로 나타내거나 메타 통계학을 사용해야 한다는 의견도 있지. 하지만, 이것은 학계 전체에서 논의되어야 할 문제야. 연구자들은 먼저 논문이나 데이터를 발표할 때 사용한 통계분석 방법을 자세히, 투명하게 공개해야 하겠어.