데이터분석 연구에 필요한 기술
연구 패러다임이 바뀌고 있습니다. 과거에는 직접 실험을 하고 한정된 경로를 통해 적은 양의 자료만을 얻을 수 있었습니다. 하지만, 컴퓨터 기술의 발달로 방대한 양의 자료를 수집, 저장할 수 있게 되면서 데이터분석 연구가 늘고 있습니다. 이 방대한 데이터를 의미 있는 자료로 해석할 수 있는 연구자가 필요해진 것입니다. 이러한 시대적 상황에서 연구자가 갖추어야 할 지식과 경험은 어떤 것이 있을지 살펴봅시다.
15년전, DNA 시퀀싱을 위해선 많은 인적, 물적 자원이 필요했고, 연구진은 특정 생물 종의 유전자에만 초점을 맞출 수 있었습니다. 몇 년 뒤, 시퀀싱 비용이 상당히 줄었고, 연구소들은 수 천 종에 달하는 게놈 시퀀싱을 발표하기 시작했습니다. 이 숫자는 현재도 기하 급수적으로 늘고 있습니다. 생물학자가 다루기에는 너무나 방대한 양의 데이터 였을 뿐 아니라, 데이터를 저장하고 가공하는데 필요한, 고성능 컴퓨터를 어떻게 다뤄야 할지 몰랐습니다. 또한, 데이터분석 연구에 필요한 기술을 습득해야 한다는 것에 대한 인식이 부족했습니다.
지난 몇 년 사이 패러다임이 바뀌면서 모든 과학 분야에서 방대한 양의 데이터를 다루는 연구가 진행되고 있습니다. 예를 들면, 생물학의 차세대 시퀀싱 기계, 물리학의 대형 강입자 충돌기, 기후 과학의 인공위성 데이터 수집기가 도입되면서 데이터분석 연구가 거의 모든 과학 분야에서 진행되고 있습니다. 이를 수행하기 위해 여러 가지 계산 도구와 알고리즘은 필수입니다.
이런 변화로 연구의 근본 특성이 바뀐 것은 아닙니다. 관찰하고, 가설을 세우며, 실험을 하고, 자료를 수집하는 일입니다. 그리고, 이를 체계적이고 논리적으로 분석하는 것이 연구의 기본 방향입니다. 하지만, 미래의 연구자는 방대한 데이터를 빠르게 결과로 바꿀 수 있어야 할 것이고, 결과를 효과적으로 다양한 배경을 가진 다른 과학자 앞에서 발표할 수 있어야 할 것입니다.
이를 위해, 많은 석박사 과정에 데이터 과학에 필요한 기술, 예를 들면 계산 도구와 프로그램 언어를 전문적으로 훈련시키는 학제간 노력이 이루어지고 있습니다. 데이터분석 연구가 점점 증가하고 있는 상황이므로, 이에 필요한 기술을 익혀두면 향후 연구에도 큰 도움이 될 것이라는 점은 두말 하면 잔소리입니다.