쉽게 살펴보는 통계: 상관분석과 회귀분석은 언제 어떻게 사용할까?

통계 도구는 데이터를 정확하게 해석할 수 있도록 프레임워크를 제공해 줍니다. 그렇기 때문에 통계 도구는 연구에 없어서는 안 될 필수적인 요소입니다. 통계 연산의 기본이 되는 두 가지는 상관분석과 회귀분석인데, 이들은 일반적으로 변수 간의 관계를 탐색하는 데 사용됩니다.

그러나 이러한 개념은 둘의 유사성 때문에 혼동되는 경우가 많습니다. 상관분석은 관계의 강도와 방향을 측정하지만, 회귀분석은 여기에서 한 단계 더 나아가 관계를 모델링하고 결과를 예측합니다. 이 두 가지는 모두 신진 연구원, 과학자, 박사후 연구원, 학자들이 데이터를 효과적으로 분석하는 데 매우 유용합니다. 이 글에서는 상관분석과 회귀분석에 대해 자세히 살펴보고, 어떤 경우에 어떤 방법을 사용해야 하는지 알아보겠습니다.

상관분석이란?

상관분석은 두 변수 간의 관계를 확립하는 과정을 가리키는 통계적 측정법입니다. 이는 변수 간의 연관성을 측정하는 가장 일반적인 방법입니다.

상관분석에서 상관관계는 하나의 변수가 다른 변수에 반응하여 어떻게 변화하는지를 나타냅니다. 다시 말해 이 두 변수가 함께 증가하는지, 함께 감소하는지, 혹은 둘 사이에 함께하는 관계가 없는지를 나타냅니다. 상관관계는 범위가 -1에서 1 사이인 상관계수(r)로 측정합니다.

  • r값이 0에 가까우면 가까울수록 변수들 사이의 관계가 약하거나 미미하다는 것을 나타냅니다. 예를 들면 공부 시간과 시험 점수의 관계가 여기에 해당합니다.
  • r값이 1이면 완벽한 양의 상관관계를 나타냅니다. 이는 한 변수가 증가하면 다른 변수도 증가한다는 의미입니다(두 변수가 같은 방향으로 움직임). 섭씨 온도와 화씨 온도의 경우가 여기에 해당합니다. 섭씨 온도가 상승하면 그에 해당하는 화씨 온도도 상승합니다.
  • r값이 -1이면 완벽한 음의 상관관계를 나타냅니다. 이는 한 변수가 감소하면 다른 변수가 증가한다는 의미입니다(두 변수가 서로 반대 방향으로 움직임). 목적지에 도달하는 데 걸리는 시간과 이동 속도에서 이러한 사례를 관찰할 수 있습니다. 이동 속도가 빠를수록 이동 시간은 줄어듭니다.

상관분석은 인과관계를 예측하거나 가정하지 않고 패턴에 대한 통찰을 제공해 줍니다. 여기서 인과관계란 독립변수의 변화가 종속변수의 변화를 직접적으로 유발하는 관계를 의미합니다. 다음은 상관분석의 몇 가지 유형입니다.

1. 피어슨 상관분석:

두 개의 연속형 변수가 선형적으로 얼마나 밀접하게 관련되어 있는지를 확인합니다. 데이터가 정규 분포를 따를 때 가장 정확하게 적용됩니다.

2. 스피어만 상관분석:

순위가 매겨져 있는 데이터 간의 관계를 측정합니다. 데이터가 피어슨 상관분석의 요건에 맞지 않을 때 사용해야 합니다. 데이터 간의 관계가 직선적이지는 않지만 일관된 방향을 따르는 경우가 이러한 예에 해당합니다.

3. 켄달 상관분석:

두 변수의 순위를 통해 둘 사이의 연관성을 살펴봅니다. 데이터 세트가 작거나 서수 데이터로 작업할 경우에 주로 사용됩니다.

상관분석은 변수 간의 연관성을 추정할 뿐 인과관계를 나타내지는 않는다는 점에 유의해야 합니다. 바로 이러한 이유 때문에 회귀분석이 필요합니다.

회귀분석이란?

회귀분석은 하나의 종속변수(결과)와 하나 이상의 독립변수(예측변수) 사이의 관계를 모델링하는 통계적 방법입니다. 회귀분석을 통해 연구자는 다른 변수의 값을 기반으로 하여 한 변수의 값을 예측할 수 있습니다. 이렇게 하면 종속변수에 영향을 미치는 요인을 파악하여 추세를 추정하는 데 도움이 됩니다.

회귀분석은 x로부터 y를 예측하는 최적의 선을 찾습니다. 회귀계수는 두 가지 방법으로 계산할 수 있습니다. 하나는 x(byx)에 기초하여 y를 계산하는 방법이고 다른 하나는 y(bxy)에 기초하여 x를 계산하는 방법입니다. 한 계수가 1보다 크면 다른 계수는 1보다 작습니다. 이들의 기하 평균은 상관계수(r)와 같지만, 산술 평균은 r값보다 크거나 같을 수 있습니다. 다음은 몇 가지 회귀분석 유형입니다.

1. 선형 회귀:

종속변수와 하나의 독립변수 사이의 관계를 직선을 사용하여 모델링합니다. 관계가 선형적일 때 사용합니다. 모든 실제 회귀 모델에는 다양한 예측 변수가 포함되기 마련이므로, ‘선형 회귀’라는 용어는 ‘다변량 선형 회귀’를 지칭하는 경우가 많습니다. 신장을 기준으로 사람의 체중을 예측할 때 실제 상황에서는 완벽히 성립되지 않는 직선 관계를 사용하는 경우가 이런 예에 해당합니다.

2. 비선형 회귀:

종속변수가 독립변수에 따라 선형적으로 변화하지 않는 관계를 모델링합니다. 데이터에 지수나 로그, 그밖의 비선형 추세가 나타날 때 사용합니다. 예를 들어 온도 상승으로 인한 화학 반응의 가속도를 모델링할 때 이 방법을 적용할 수 있습니다.

3. 다중 회귀:

종속변수를 예측하는 두 개 이상의 독립변수를 포함합니다. 다중 회귀는 보다 복잡한 관계를 조사할 때 유용합니다. 부동산의 크기와 위치, 연식과 같은 요소를 바탕으로 해당 부동산의 가치를 예측하는 것이 다중 회귀의 좋은 예입니다.

회귀분석은 독립변수를 기반으로 하여 종속변수의 값을 예측하는 데 도움이 됩니다. 그러나 회귀분석이 두 변수 간 관계의 강도와 방향을 측정하는 상관분석과는 어떻게 다른지를 제대로 이해하는 것이 중요합니다. 이제 상관분석과 회귀분석의 주요 차이점을 함께 살펴보겠습니다.

상관분석과 회귀분석에 각각 어떤 유형이 있고 기본적인 차이점이 무엇인지 명확하게 파악했으니, 다음 단계는 무엇을 어떤 경우에 사용해야 하는지 알아보는 것입니다!

상관분석을 사용할 때와 회귀분석을 사용할 때

몇 가지 실제 사례를 통해 사용법을 살펴보겠습니다.

  1. 모집단에서 키와 몸무게 사이의 관계 확인: 이 경우에는 상관분석을 사용하여 두 변수 사이의 상관관계를 계산해야 합니다. 양의 상관관계는 키가 커지면 몸무게도 늘어나는 경향이 있음을 나타냅니다. 그러나 이것은 예측 가능한 상황은 아닙니다.
  2. 온도와 아이스크림 판매량 사이의 관계 확인: 이 경우에는 상관분석을 사용해야 합니다. 온도가 상승하면 아이스크림 판매량이 증가하는 경향이 있음을 양의 상관관계가 시사하기는 하지만, 이러한 시나리오를 가지고 정확한 판매량을 예측할 수는 없기 때문입니다.
  3. 매출 및 광고 예산 결정: 광고 예산을 기반으로 하여 미래의 매출을 예측하려면 회귀분석을 사용해야 합니다. 과거 데이터를 분석하여 광고 예산의 변화가 매출 수치에 어떤 영향을 미치는지 모델링합니다.
  4. 직원 성과 및 교육 시간 결정: 목표한 의사 결정을 위해 교육 시간이 직원 성과라는 결과에 어떤 영향을 미치는지 평가하려면 회귀분석을 사용해야 합니다. 이렇게 하면 교육 시간 길이를 기반으로 하여 직원 성과를 예측하는 데 도움이 됩니다.

흔히 빠지는 함정과 오해

상관분석과 회귀분석에서 흔히 저지르는 실수를 살펴보고, 몇 가지 예를 들어 이러한 실수를 방지하는 방법을 배워보겠습니다.

가장 흔히 저지르는 실수는 상관관계가 곧 인과관계를 의미한다고 가정하는 것입니다. 두 가지 변수 사이에 강한 상관관계가 존재할 수는 있지만, 그렇다고 해서 꼭 한 변수가 다른 변수의 원인이 되는 것은 아닙니다. 예를 들어 커피 섭취량과 생산성 사이에 상관관계가 존재할 수는 있지만, 그렇다고 해서 꼭 커피를 마시면 생산성이 증가한다는 의미는 아닙니다. 이 경우 생산성 증가는 시간대와 같은 다른 변수의 변화로 인한 결과일 수도 있습니다. 예를 들어 사람들은 업무 시간대에 커피를 더 많이 마시는 경우가 많은데, 업무 시간은 굳이 커피가 아니더라도 생산적으로 활동해야 할 때입니다.

흔히 저지르는 또 다른 실수는 비선형 관계에 선형 회귀 모델을 잘못 적용하는 것입니다. 관계가 비선형인 경우(예: 지수 또는 로그가 나타나는 경우)에 선형 모델을 사용하면 예측이 부정확해질 수 있습니다. 예를 들어, 시간에 따른 박테리아 개체군의 성장을 예측한다고 생각해 봅시다. 박테리아의 증가는 지수적 증가 패턴을 따라 일정 간격마다 두 배로 증가하는 지수 곡선을 이루는 경우가 많습니다. 이를 정확하게 모델링하려면 해당 데이터의 특성에 맞는 비선형 회귀를 사용해야 합니다.

데이터의 특성을 올바르게 평가하고 유효한 결과를 보장하려면 적절한 방법을 선택하는 것이 중요합니다. 어떤 통계 측정법을 적용해야 하는지를 일단 파악하고 나면 다양한 플랫폼 중에서 한 가지를 선택하여 통계 분석 작업을 수행할 수 있습니다.

정확한 분석을 위한 올바른 도구 선택

연구에서 신뢰할 수 있는 결과를 얻으려면 적절한 응용 프로그램과 도구를 선택하는 것이 중요합니다. Microsoft Excel과 같은 기본 소프트웨어를 사용할 수도 있고 PSPP, Matlab, GraphPad Prism과 같은 고급 응용 프로그램을 선택해서 사용할 수도 있습니다. 이러한 응용 프로그램은 더욱 강력한 데이터 분석 기능을 갖추고 있어 규모가 큰 대규모 데이터 세트에 사용하기 적합합니다.

연구에 적합한 통계 방법 선택에 대해 전문가의 안내가 필요하신가요? 이나고의 연구 논문 통계 분석 서비스는 분석의 질을 높이고 연구 결과의 정확성을 확보하고자 하는 연구자 여러분께 전문가의 도움과 지원을 제공해 드립니다.

연구자가 적절한 통계 도구를 선택하면 정확한 결론을 도출하고 예측의 신뢰도를 높일 수 있습니다. 통계 도구를 사용해 보신 경험이 있거나 상관관계 및 회귀분석 사용에 대해 궁금하신 점이 있으면 부디 공유해 주세요.

답장을 남겨주세요.

고객 만족도 조사*

귀하의 이메일 주소는 공개되지 않습니다.

X

회원가입 후 더보기

무료로 보실 수 있는 기사 횟수에 제한이 있습니다. 구독하시면 논문작성
및 저널 출판에 관한 다양한 자료를 횟수제한 없이 이용하실수 있습니다.

  • 500개 이상의 출판뉴스
  • 50개 이상 웹세미나
  • 10개 이상 전문가 진행 팟캐스트
  • 10개 이상 이북
  • 10개 이상 체크리스트
  • 50개 이상 인포그래픽
여러분의 의견을 나눠주세요

리뷰어의 코멘트를 보통 어떻게 대응하나요?