표절 검사 프로그램, 믿을 수 없다.

이나고 아카데미, "표절 검사 프로그램, 믿을 수 없다.." 이나고 아카데미. 7월 12, 2019. https://www.enago.com/academy/kr/should-the-academic-community-trust-plagiarism-detectors/.

Copy

Reading time

10 minutes

published on

8월 9, 2021

이미 출판된 연구 논문에서 데이터 조작 및 다른 논문을 표절한 사례가 늘어나고 있다는 조사 결과가 발표되었다. 한국 연구재단에 따르면 2018년 한국에서 발생한 연구 부정행위는 총 110건으로 집계되었으며, 그중에서 표절과 중복 게재가 두 번째 세 번째를 차지했다. 더불어 논문이 표절과 같은 부정행위로 철회되는 경우가 과거보다 크게 늘었다고 한다. 논문 철회는 연구자들에게 커다란 불명예일 뿐 아니라 학계에도 손실을 입히게 된다. 고의성이 없는 표절이라도, 논문 내용 수정이 필요할 뿐 아니라, 연구자의 부주의를 보여주기 때문에, 다양한 표절 검사 프로그램을 연구기관과 연구자 개인이 사용하고 있다. 가장 많이 사용하는 프로그램으로는 Grammarly, iThenticate, PlagScan, Crossref가 있으며 이들은 10억 개에서 600억 개까지의 웹페이지와 논문들을 비교하여 표절을 검사한다. 하지만 표절 검사를 프로그램에 전적으로 맡기기엔 부족하다. “표절 검사 프로그램 속이기”라는 Neuroskeptic의 글에 따르면, Grammarly의 경우 텍스트 표절(direct plagiarism)을 잘 찾아내는 것에 반해, 단순 말 바꾸기 표절(paraphrasing)과 같은 표절은 찾아내지 못하기도 했다. 사실 표절인지 아닌지는 사람이라면 단번에 알아볼 수 있는 정도였다.

표절인지 아닌지 맞혀 보자

You are invited to join the Publication Integrity and Ethics (herein referred to as PIE) as one of its founding members. PIE, a not-for profit organization, offers free membership to all interested individuals. Please join us and become part of this exciting new movement in the world of publishing ethics; it is the professional home for authors, reviewers, editorial board members and editors-in-chief.

You are invited to join Publication Integrity and Ethics (herein referred to as PIE) and become one of its founding members. PIE, a not-for profit organization, offers interested individuals free membership. Please join this exciting new movement in the publishing ethics world; PIE is the professional home for reviewers, editorial board members, authors, and editors-in-chief.

위의 글이 PIE원문이고, 아래가 Neuroskeptic에서 말 바꾸기 표절을 한 글이다. 첫 번째 줄 굵은 글씨인 the가 빠지고 as가 become이 되는 등 아주 사소한 변화만 주었을 뿐 두 글은 거의 동일하다. 그런데도, Grammarly는 아래 Neuroskeptic의 글을 “독창적인 원작(original)”이라고 판단했다.

표절 검사 프로그램만으로는 부족하다.

표절 검사 프로그램의 신뢰도가 떨어지는 사건은, 한 개인의 실험뿐 아니라, 심각한 연구 현장에서도 종종 발생했다. The Scientist에서 이러한 사건들을 소개했다. 올해 6월, 프랑스 Centre National de la Recherche Scientifique의 행동과학자 장-프랑수아 보네퐁(Jean-François Bonnefon)은 트위터로 그의 연구 논문이 오직 AI 표절 검사 프로그램의 결과 때문에 투고가 거절되었다고 말했다. 그에 따르면 프로그램은 논문에 높은 수준의 표절(high level of textual overlap)이 있다고 판단하였다. 하지만, 표절이라 표시된 부분은 연구 방법과 분석 방법 부분이었다. 그가 표준 프로토콜을 사용하였기 때문에 사람이 확인하였을 경우 이 프로그램이 잘못 작동하고 있음을 단 2분 안에 알 수 있었을 것이었지만, 오직 프로그램의 판단 단 하나만으로, 논문이 거절된 것이다. 플로리다의 Moffit Cancer Center의 암역학 연구원 트레비스 거크(Travis Gerke)도 이와 비슷한 경험을 했다. 스프링거 네이처에 논문을 투고했을 때, 프로그램이 자동 생성한 표절 검사 보고서에서는 그의 논문에도 많은 표절이 있었음을 표시했다. 하지만 대부분은 저자 리스트, 레퍼런스, 그리고 환자 동의에 대한 표준 설명이었다.

다행이 거크의 논문은 거절되지 않았지만, 보네퐁의 논문 거절 사건은 많은 사람에게 논문 투고 및 표절 결정 과정에 대한 의구심을 남겼다. UCSD의 킴 베렛은(Kim Barrett) “저널의 가치는 피어 리뷰의 품질에 달려 있다고 생각하기 때문에 이런 피어 리뷰의 과정 자체가 자동화될 수 있다는 생각 자체가 저에게 다소 괴롭습니다”라고 말하기도 했다. EMBO 학술지의 에디터 풀베레(Pulverer) 또한 “AI에 대한 기대치가 높은 시대이지만, 자동화 시대를 맞기엔 한참 남았습니다”라고 말하며 “표절은 아주 복잡한 문제이고, 여러 도구가 일상적인 스크리닝 과정을 도울 수는 있어도 인간 리뷰어의 발끝에도 미치지 못한다”라고 말하기도 했다.

학술지 내 표절 검사 프로그램과 해결책

많은 학술지에서 간단한 텍스트 중복 검색 소프트웨어를 사용하여 표절을 식별한다. 그러나 이러한 기법에는 몇 가지 한계가 있다. 예를 들어, 아이디어 표절을 포착하거나, 속성을 사용하지 않고 결과를 재구성하거나, 허가 없이 수치 또는 데이터를 사용한 경우, 표절 검사 프로그램이나 소프트웨어는 이를 표절로 인식하지 못한다.

“스프링어 네이처 (Springer Nature) 논문은 사람이 먼저 검토한 다음 기술을 사용하여 확인한 다음 다시 한 사람이 확인한 것입니다. “스프링어 네이처(Springer Nature)의 커뮤니케이션 책임자 인수지 윈터 (Susie Winter)는 The Scientist에 이메일을 보내어 말을 전달했다. “Springer Nature의 모든 결정은 편집을 통해 이루어집니다. 툴은 피어 리뷰 프로세스에 대한 탁월한 지원을 제공 할 수 있지만, 결정을 내리지는 않습니다. 논문이 받아들여지거나 거부되는지는 편집 에디터의 결정과 책임입니다. ”

엘스비어나 스프링어 네이처와 같은 몇몇 대형 출판사는 통계적 문제를 확인하거나 주요 내용을 정확히 찾아내어 논문을 요약하는 등 동료 평가 프로세스를 지원하기 위해 보다 복잡한 인공 지능 도구를 테스트하기 시작했다. “이것들은 유용한 편집 도구가 될 것입니다.”라고 풀베레는 말했다. “그러나 전문가들은 전문가의 평가는 물론, 정보에 입각한 전문가의 편집 평가를 대체해서는 안 됩니다.”

이 의견을 뒷받침하는 인공지능형 도구의 함정은 바로 답습이다. 바로 이전에 발표된 논문을 가지고 훈련을 하므로, 머신 러닝으로 만든 프로그램이 기존에 이미 존재하는 편향된 평가 방법을 그대로 답습할 수 있다는 것이다. 또한, StatReviewer와 같이 알고리즘을 사용하여 논문을 평가한 후 전체적인 점수가 하나라도 나오면, 에디터나 리뷰어가 존재하지만, 점수만을 토대로 논문 기재 여부를 결정하고 싶은 유혹에 빠질 수도 있다.

불완전한 표절 검사 프로그램에 대한 대책은?

네이처지에 기고한 글에서 데보라 웨버-볼프(Debora Weber-Wulff)는 다음과 같이 정리한다. “소프트웨어는 연구자가 표절했는지 안 했는지를 결정할 수 없다. 단순하게 정확히 일치하는 텍스트만 찾아낼 수 있을 뿐이다. 아주 빠르게, 많은 논문을 한 번에 검사하는 경우나 극심한 문제를 지적하는 데에는 유용할 수 있으나, 독창성과 표절을 구분하는 것은 아직 인간의 일임이 틀림없다. 표절을 찾아내는 가장 중요한 방법은 그 글을 읽고, 레퍼런스와 비교하여 불일치 하는 것을 찾아내는 것이다. 인터넷 검색을 통해 세 개에서 다섯 개의 키워드를 검색해보면 표절을 더욱 잘 찾아낼 수 있다. 레퍼런스를 찾아 읽을 수 없고, 검색해도 도움이 되지 않을 때 그제야 표절 프로그램이 등장해야 한다. 이때에도 두세 개의 프로그램을 사용하고, 검사 보고서를 찬찬히 읽어야 하며, 결과로 나오는 숫자를 액면 그대로 믿거나 사용하지 않는 것이 가장 좋다.”

학문적으로 청렴함을 지키는 것은 사회적인 문제이다. 표절이 빈번한 연구자 사회의 부끄러운 현실에서, 이를 찾아내는 것을 온전히 알고리즘과 프로그램에 맡길 수는 없다. 과학을 정직하게 유지하는 것은 연구자들에 달려있다. 표절 검사 프로그램은 연구자들을 도울 뿐, 리뷰어가 논문을 평가하는 측면에서 해야 할 일 모두를 대체할 수는 없다.