10

연구 결과물에 신뢰도지수 더하기

현대 과학연구의 발전은 연구 재현성이라는 견고한 토대 위에서 가능합니다. 연구 설계, 방법, 데이터 수집 및 분석상의 투명성 확보 외에도 다른 과학자들이 같은 연구를 재현할 수 있어야 함은 과학연구의 신빙성을 보장함에 있어 대단히 중요합니다. 그러나 현재 진행 중인 연구 재현성 위기는 과학에서의 진실성과 정직성에 대한 중대한 위협입니다. 한 예로 세계적으로 명성이 높은 네이처 학술지에서 실행한 설문 조사에 따르면 70%에 달하는 과학자들이 다른 연구자들의 실험을 재현할 수 없었고, 더욱더 놀라운 것은 과학자 중 절반은 자신들의 실험조차 재현할 수 없었다는 것입니다. 자신의 연구 결과물을 통계학적 유의 확률(p-value)로 뒷받침하는 것은 이제 흔한 과학적 관행이 되었지만, 재현성 위기는 통계학적 유의 확률값을 보여주는 것만으로 충분하지 않다는 것을 보여줍니다. 따라서 데이터 해석에 있어 투명성을 더하는 다른 방법은 신뢰도지수 (confidence index)를 사용하는 것으로서, 이것은 여러분의 연구 결과물이 사실일 가능성을 알려주는 지표로 사용될 수 있습니다.

 

신뢰도지수의 정의

현대 과학에서 실험을 실행한다는 것은 보통 모집단으로부터 무작위로 추출한 표본에 대해 인위적인 처치나 치료를 하고, 그에 따른 효과나 반응을 검사하는 것을 의미합니다. 여기에서 모집단이란 연구하고자 하는 대상, 즉 사람이나 항목 또는 사건의 총집합을 의미합니다. 이론상 전체 모집단의 모든 구성원을 검사하는 것이 이상적이지만, 실제로 그렇게 하는 것은 편리하거나 실용적이지도 않고 또한 대부분의 경우 가능하지도 않습니다. 따라서 전체 모집단을 가장 잘 나타낼 수 있는 표본을 무작위에 의하며 적절한 크기로 수집하여 부분집합으로 삼아 실험을 실행하게 됩니다. 이렇게 표본이 무작위적으로 수집되었으며 충분히 클 경우 표본에서 수집한 정보를 분석하여 모집단에 대한 효과나 반응을 추론할 수 있습니다. 따라서 연구자는 모집단을 대표하는 표본(예를 들면 임상 시험 참여자)이 무작위로 뽑혔으며, 그 크기가 모집단을 대표할 수 있을 정도로 아주 크다는 것을 확실히 하여야만 합니다. 결론적으로 신뢰도지수란 연구자가 표본에 행한 처치나 치료를 전체 모집단에 같이 시행했을 때 똑같은 효과와 반응이 나타나리라는 것을 얼마나 확신할 수 있는지를 말해주는 것입니다. 따라서 신뢰도지수는 임상시험에 대한 치료와 같은 미래 실험에 대한 결정을 내릴 때 결정적이며 연구를 진행하면서 제한사항에 대한 아이디어를 주어야만 합니다.

관습적으로 과학자들은 유의 확률로써 자신의 데이터를 학계에 보고하지만, 유의 확률이 신뢰도지수와 비슷하기는 하지만 같은 것으로 간주해서는 안 됩니다. 다시 말해 이 둘의 차이란, 유의 확률이 연구자의 연구 결과물이 95% 정확하다는 것만을 의미하는 것에 반해 신뢰도지수는 그들의 연구 결과가 얼마나 정확한지에 대한 가능성을 말해주는 것에 있습니다.

위에서 살펴보았듯이, 유의 확률 계산을 결정짓는 요소는 다음과 같습니다:

  • 표본 크기 –표본 크기가 크면 클수록 더 정확한 결과가 나올 것입니다.
  • 반응 빈도 – 처치나 치료에 대한 표본의 특정한 반응이 크면 클수록 연구 결과물은 더욱 정확합니다.
  • 모집단 크기 – 연구대상인 모집단이 작을 때만 중요합니다.

베이지안 확률(Bayesian probabilities)에 기반을 둘 수있는 신뢰도지수를 나타날땐 다음의 사항들을 고려해야 합니다:

  • 무작위 변수들 – 정보의 결여에서 기인한 미지의 요소들
  • 사전 확률 – 이용 가능한 정보를 고려
  • 가설 진실 – 연구자의 가설이 진실일지 거짓일 지에 대한 확률

유의 확률로 결과물에 대한 명분 세우기

관례로 과학자들은 통계학적 유의 확률이 0.05보다 작을 때에만 자신의 연구 결과물이 출판 가능하며, 유의 확률이 자신의 연구 결과물이 유효하다는 것을 다른 연구자들에게 알려준다고 간주합니다. 만약 유의 확률이 0.05보다 크다면, 연구자료를 출판하려는 시도도 하지 않을 것입니다. 이러한 양상이 결국 소중하고 값있는 연구가 문헌상으로 남지 않게 되는 결과를 일으킨다는 반박도 있습니다.

 

단순히 유의 확률로 연구 결과물의 출판을 결정짓는 데에는 여러 문제를 일으킵니다. 예를 들어, “조절변수 분석을 통해 취침 시간의 높은 온도는 낮은 수면 효율성과 관련되어 있다는 것이 드러났습니다. (b=-11.6 pp; p=0.020)”라는 정보 보고가 있다고 가정합시다. 이 문장에서 유의 확률이 0.05보다 작다는 것을 알 수 있지만, 과연 이것으로 이 진술의 진실성을 의미할 수 있을까요?

 

2016년 미국 통계학 협회는 유의 확률 사용에 대한 이용 지침을 출판하며 유의 확률 자체가 모델이나 가설을 입증하는 좋은 척도를 제공하지 않는다고 경고하였습니다. 이것은 유의 확률만으로 다음과 같은 물음에 답할 수 없기 때문입니다.

 

  1. 연구 표본이 모집단을 대표하는가.
  2. 연구된 가설이 진실인가 혹은 거짓인가.
  3. 데이터가 우연에 의해 생성되었는가.

 

따라서 미국 통계학 협회는 유의 확률이 과학적 추론을 대신할 수 없으며, 훌륭한 연구 계획과 실험 실행과 같은 많은 다른 인자들이 중요하다고 경고합니다. 결론적으로 유의 확률과 연관된 모든 쟁점 사항들은 이전의 문헌과 맥락상 맞게 시행된 실험적 방법들이나 데이터 분석의 투명성을 통해 다루어져야 합니다. 요컨대 연구자들은 모든 관련된 요인들을 고려하여 연구의 결과에 대한 유효성을 가늠하도록 교육받았기 때문입니다.

 

마지막으로 미국 Stanford 의과대학교의 Steven Goodman 교수는 연구물이 신뢰도지수로 수량화된다면 연구는 명확히 될 수 있다고 생각합니다. 신뢰도지수의 수량화는 p-hacking (유의 확률 0.05보다 적은 수를 얻기 위해 데이터를 임의로 조작하는 것)을 최소화할 수 있으며 확률 성의 실제 값을 줄 수 있습니다.

 

Leave a Reply

avatar
  Subscribe  
Notify of