논문을 작성할 때에 반드시 피해야 하는 통계적 오류
연구 과정에서 통계는 빠질 수 없는 요소입니다. 수 많은 연구자들이 논문이나 글을 작성할 때에 통계적인 분석을 진행하며 이러한 분석은 논문 내의 양질의 데이터 및 연구의 수준을 나타내는 중요한 척도로써 작용합니다. 여기서, 수준 있는 통계적 분석이란 단순히 분석이 통계적으로 독자들에게 이해가 잘 되는 것 만을 의미하지 않습니다. 진정한 통계적 분석이란 단순히 분석 결과가 명시적으로 좋은 것 만을 의미하지 않으며, 통계를 내는 과정에서부터 올바른 접근 혹은 방법을 통하여 도출해야만 진정한 통계적 분석이라고 할 수 있습니다. 오늘, 본문에서는 연구자들이 통계적 분석을 진행하는 과정에서 일반적으로 범하기 쉬운 몇 가지 통계적인 오류를 다룰 것입니다. 특히 통계적인 오류를 크게 두 부분 (데이터 시각화의 오류, 통계 blunders galore) 으로 나누어서 각 부분 내에서 주의해야할 사항에 대해 설명해보고자 합니다.
데이터 시각화 (Data visualization)의 오류
데이터 시각화 (Data visualization)의 오류란 데이터를 읽고 해석하는 시각화의 과정에서 일어나는 오류를 의미하며, 이는 글의 저자와 글을 읽는 독자 모두에게 혼돈을 줄 수 있는 요소로 작용하기에 주의해야합니다. 만일 저자가 데이터의 해석 및 표현 과정에서 부정확한 표현을 사용한다면, 이는 독자의 데이터 추론을 왜곡시킬 수 있고 심지어 저자가 전달하는 데이터 내의 해석이 아닌 독자 개개인의 해석이 첨가되어 잘못된 결과가 도출될 수도 있습니다. 데이터 시각화의 오류는 크게 원형 차트, 막대 그래프, 시간 차트를 그릴 때에 나타날 수 있으며 각 항목의 주의할 사항들은 아래와 같습니다.
- 원형차트(Pie Chart)를 그릴 때
일반적으로 데이터 시각화의 과정에서, 범주형 값을 나타날 때에는 파이 차트를 이용한 데이터의 전달이 선호됩니다. 그러나 파이 차트를 이용하는 과정에서 쉽게 나타날 수 있는 오류들이 있으며, 주의해야 하는 사항은 아래와 같습니다.
- 파이 차트의 백분율은 최대 100%가 되어야 합니다.
- VR 콘솔에서는 원형 모양의 차트보다는 3D 차트가 더 적합합니다.
- 파이 차트 내에서, ‘기타’ 라는 표기가 차트에 있어서는 안됩니다. 특히 ‘기타’ 항목의 비중이 나머지 항목들보다 큰 비중을 차지할 경우 원형 차트가 모호해질 수 있습니다.
- 막대 그래프 (Bar graph)
- 데이터 시각화하는 과정에서 막대 그래프는 특정 그룹의 수 또는 백분율을 통해 범주형 데이터를 표시하기에 최적화된 그래프입니다. 막대 그래프를 나타낼 때에 검사해야 할 고려사항은 아래와 같습니다.
- 단위의 범주 (scale)을 지정할 때에 주의를 기울여야합니다. 범주를 너무 설정한 다면 데이터 내 그래프의 크기와 높이가 너무 작아질 수 있고, 반대로 범주가 너무 작게 설정되어 있다면 그래프가 너무 크게 보일 수 있습니다.
- 막대 그래프 내에서 막대의 높이로 표시되는 단위와 그 결과가 의미하는 바에 대해서도 정확히 기입하여 해석과정에서 오류가 생기는 것을 방지해야 합니다. 축의 제목을 정확하게 입력하며, 또한 범례를 명확하게 보일 수 있도록 하십시오.
- 시간 차트 (Time chart)
시간 차트는 데이터의 시각화 과정에서 측정 가능한 샘플 또는 실험군이 시간에 따라 어떻게 변하는 지를 수치적으로 보여주기 위한 목적으로 적합한 차트입니다. 시간 차트를 그릴 때에 검사해야 할 고려사항은 아래와 같습니다.
- 가로축과 세로축의 지정할 때 올바로 지정하는 것이 중요합니다. 일반적으로 세로 축을 샘플의 데이터, 가로 축을 시간으로 하는 것을 추천 드리며 만일 이러한 일반적인 축의 설정이 아닐 때에는 혼란이 생기지 않도록 더욱 확실하게 명시하여 독자들의 혼돈을 방지해야 합니다.
- 데이터를 통해 도출된 결과를 전달하는 것에 집중해야 하며, 그 이유에 대해 억지로 설명하려고 시도하지 않는 것을 추천합니다. 데이터는 결과를 명확학게 보여주기 위한 시각화의 도구일 뿐이기 때문입니다. 그러므로 차트를 이용해서는 ‘왜’ 일어났는가 보다는 ‘무엇이’ 일어났는지에 초점을 맞춰서 데이터를 전달하는 용도로 사용하세요.
- 히스토그램 (Histogram)
히스토그램이란 표로 되어 있는 도수 분포를 정보 그림으로 나타낸 차트를 의미하며 도수분포표를 그래프화 시킨 방식을 의미하기도 합니다. 히스토그램을 이용하여 데이터의 시각화를 시도할 때에는 다음의 사항에 주의하여 오류가 발생하지 않도록 하십시오.
- 부적합한 범주 (scale)을 사용하여 결과가 표시되지 않도록 주의하세요
- x축과 y축의 간격이 잘못될 경우 데이터가 더 작거나 크게 보일 수 있으므로 이에 주의하세요.
- 사람들이 히스토그램을 막대그래프와 혼동하는 경향이 있으므로 그에 주의하여 히스토그램의 적용이 올바른지 확인하세요.
잠재적인 실수나 변화에 따른 오류
실수나 변화는 연구 도중 언제나 발생할 수 있는 상황이며 이에 따른 오류 또한 피할 수 없는 사항입니다. 이러한 오류가 발생시 독자에게 전달하는 통계적 분석이 정확하지 않아 잘못된 해석을 낳을 수 있습니다. 이러한 오류를 대비하기 위해 주의할 사항들은 아래와 같습니다.
- 바이어스 데이터 (biased data)
바이어스란 통계학에서 실제 값을 초과하거나 실제 값에 못 미치는 경우를 의미하며 편차로도 해석이 됩니다. 통계학적인 오류는 미리 확실히 확인되고 조사되지 않는다면 큰 비용이 소모될 수 있기 때문에 오류가 생기지 않도록 미리 조심해야합니다. 예로 들어, 불안정한 실험기기를 사용할 경우 이러한 바이어스의 원인이 될 수 있습니다. 예로 든다면, 당신이 무게를 측정할 때마다 5파운드씩 무게가 더해지는 저울을 사용한다면 이는 오류의 원인이 될 것입니다. 그 밖에도 잘못된 실험군을 설정한다면 이 또한 바이어스의 원인이 될 수 있습니다. 만일 사람들의 운동습관에 대한 연구를 진행할 때, 체육관의 사람들 만을 표본으로 설정하여 통계를 진행한다면 이는 큰 오류를 낳을 수 있습니다.
- 표본오차를 유발할 수 있는 상황
이는 잠재적인 계산 실수나 상황에 따른 변화들을 의미합니다. 이러한 실수 혹은 변화가 발생한다면, 큰 문제가 될 수 있기 때문에 이러한 실수를 미리 예상하여 통계학적 결과에 반영하는 것은 정확도를 높일 수 있는 방법이 됩니다. 이러한 표본 오차를 초래할 수 있는 상황을 최대한 만회하기 위해서는 꾸준한 통계분석을 진행하여 표본 집단인 사람들로 하여금 연구의 정확도에 의문을 갖지 않도록 하는 방법이 중요합니다.
- 무작위적이 않은 샘플
무작위적이지 않은 샘플을 사용한다면, 이는 편중된 데이터를 유발할 수 있습니다. 또한 잘못된 모집단의 선정은 통계학적 오류의 큰 원인이 될 수 있으며 나중에는 보다 더 큰 문제에 봉착할 수도 있습니다. 그렇기 때문에 모든 연구를 진행함에 있어서 연구가 무작위 표본을 기반으로 하고 있는지 확인하는 과정이 필수적입니다.
- 상관관계에 있어서의 오류
앞서 말한 원인 뿐만 아니라 상관 관계에 따른 오류 또한 잘못된 통계의 원인이 됩니다. 먼저, 상관 관계는 체중과 키, 통화시간과 보류시간, 과목의 시험점수와 해당 과목을 공부하는 데 소요된 시간 등과 같은 두가지 변수에만 적용이 되는 개념이라는 사실에 유의해야합니다. 그러므로 만일 당신이 “이 결과는 성별에 따른 상관관계가 있는 것 같습니다.” 라는 말을 들었을 때, 섣불리 판단하지 않는 것이 좋습니다. 특히 성별의 경우 연구패턴과 어느 정도의 연관성을 가질 수는 있지만 통계적으로 연구와 성별의 상관관계는 없다는 사실을 확실히 직시하고 있어야 합니다. 상관관계의 경우, 선형관계의 방향성과 관계성을 측정하는 데에 도움이 됩니다. 또한 선형관계가 가장 큰 카테고리이며 그 안에 상관관계를 포함한 다른 관계들이 존재한다는 것을 이해하고 있어야합니다. 만일 그 둘 사이의 상관관계가 없다면 이는 그 사이에는 선형 관계가 없다는 것을 의미하지만 다른 관계 유형이 오히려 존재할 수 있음을 알아야 합니다.
- 잠재적인 실수
통계와 함께 나타날 수 있는 모든 정보를 곧이곧대로 받아들여서는 안됩니다. 이미 알고있는 것처럼 오류는 항상 나타날 수 있다는 것을 명심하십시오. 그러므로 마지막에 다음의 체크리스트를 확인하며 오류를 방지하는 습관을 들이세요.
A 각 항목의 합산이 총합과 일치하는지 확인해보세요
B 데이터 내의 숫자와 계산과정을 모두 더블체크 (double check) 하여 혹시 모를 실수에 대비하세요
- 설문조사가 있을 경우, 응답 비율 (응답한 사람의 수를 설문 조사를 시행한 사람들의 수로 나눈 값) 을 계산해보세요.
- 또한 설문조사를 시행했다면, 질문이 적합한지를 다시 한번 확인해보세요.
- 항목들의 이름이 정확하게 명시되어 있는지 확인해보세요
글을 작성할 때에 통계적 오류를 일으킨 경험이 있나요? 혹은 자신만의 통계적 오류를 방지하기 위한 팁이 있으신가요? 그렇다면 아래에 코멘트를 통해 경험을 함께 공유해주세요.