논문의 텍스트/데이터 마이닝

매년 수백만 권의 단행본과 저널이 출판됩니다. 따라서 수많은 데이터 가운데 연구자가 필요한 자료를 찾기는 더욱 어려워지고 있기도 합니다. 자료를 직접 읽어보며 필요한 부분을 복사하거나 캡처했던 이전과는 다르게, 크로스레프 (Crossref) 등이 제공하는 텍스트/데이터 마이닝(TDM, Text and Data Mining) 도구는 여러 면에서 편의를 제공하고 있습니다. 크로스레프가 설립된 2000년 이후, 학술 출판계는 급속하게 성장하였고, 자료의 증가 속도도 급격하게 상승하였습니다. 현재 이 조직에는 다양한 학문 분야, 학회, 언론, 오픈 액세스 출판사 등에서 5,000명이 넘는 인원이 소속되어 있습니다. 크로스레프를 통해 자연 언어 처리 (NLP, Natural Language Processing)를 적용하여 수많은 저널과 단행본에 기재된 자료를 정리 및 축출할 수 있습니다. 텍스트/데이터 마이닝은 데이터 리소스를 분석하고 필터링하는 동시에 컴퓨터를 사용하여 패턴 및 연결점 검색을 위한 도구입니다. 이러한 텍스트/데이터 마이닝을 오픈 액세스에서는 어떻게 활용할 수 있을까요?

크로스레프의 출발점

연구자는 자식과도 같은 논문을 투고할 저널 선택을 위해 큰 노력을 하게 됩니다. 분야, 명성 등에 따라 추려봐도 투고 고려 대상 저널이 수백 개인 경우도 있기 마련입니다. 개인 연구자나 기관, 독자의 입장에서도 이는 마찬가지입니다. 특정 출판사에 연락한다 해도 워낙 분야가 다양하기에 기대했던 답을 얻기는 힘듭니다. 적절한 자료를 찾았다 한들, 구성원과 자료 공유를 위해 번잡한 과정이 필요하기도 합니다. 크로스레프의 목표는 다양한 저널의 데이터를 색인하는 것입니다. 이를 위해, 엘스비어(Elsevier)사는 대량공유를 위한 자료 프로그래밍 인터페이스(APIs, article programming interfaces)를 구축하였습니다. 크로스레프는 협력 관계인 수천 개의 저널과 오픈액세스에 분산된 자료를 텍스트/데이터 마이닝 도구를 통해 색인화하고 있습니다.

크로스레프 메타 데이터의 역할

많은 양의 데이터를 수집하려면 게시자 및 여러 플랫폼의 자료를 대량 다운로드 해야 합니다. 디지털 문서 식별자 (DOI, Digital Object Identifiers)와 메타 데이터가 유용하게 사용되는데, 온라인 저널의 자료를 손쉽게 정리할 수 있기 때문입니다. 크로스레프는 가장 큰 디지털 문서 식별자 등록 기관이기도 합니다. 2013년에 서비스가 시작된 크로스레프 자료 프로그래밍 인터페이스 서비스는 텍스트/데이터 마이닝을 지원하기 위한 목적으로 출판사가 사용할 수도 있습니다. 모든 사용자가 자유롭게 메타데이터의 검색 및 필터링할 수 있습니다. 또한 커뮤니티에 통합하는 것이 더 쉽기 때문에 검색 가능성이 높아집니다.

텍스트/데이터 마이닝 적용 및 분석

텍스트/데이터 마이닝 도구 적용 후 결과를 분석할 수 있습니다. 텍스트/데이터 마이닝 데이터는 시각화를 통해 패턴 분석을 위한 자료로 사용되기도 합니다. 이러한 기술에는 태그 클라우드, 스트림 그래프, 트리 맵, 히트 맵, 분산형 플롯 등이 포함되며 상호 간 관계를 표시하는 데 사용할 수 있습니다. 패턴 검색 이외에도 이러한 기술을 활용한 분류 혹은 클러스터링을 통해 사람이 개입하지 않고 문서를 그룹에 자동으로 할당할 수 있습니다.

텍스트/데이터 마이닝 및 오픈 액세스

텍스트 마이닝이란 무엇입니까? 텍스트 마이닝은 다양한 플랫폼에 산재한 데이터를 정리하는 것이며, 수작업으로 진행되던 것을 크게 발전시킨 형태입니다. 텍스트/데이터 마이닝은 빠르게 발전 중인 분야로 프로그램과 서비스의 역할이 중요해지고 있습니다. 디지털 콘텐츠 활용도 상승과 함께 빠르게 발전 중인 자동 색인 기술은 기술 발전에 큰 영향을 줄 것으로 기대됩니다. 개방된 오픈 액세스 자료와 기존 저널이 출판한 자료가 혼재된 현 상황에서 데이터 마이닝은 검색 효율성을 많이 증가시킵니다. 이러한 크로스레프의 시도는 학계 구성원의 소중한 시간과 능률을 크게 증대시킬 것입니다.

코멘트는 닫힙니다.