상관관계 및 인과관계
상관관계는 2개 변수 간 관계에 대해 검정됩니다. 그러나 2개 변수가 함께 움직인다고 해서 한 변수로 인해 다른 변수가 발생하는지 여부를 알고 있다는 의미는 아닙니다. 그 이유는 일반적으로 "상관관계가 인과관계를 의미하지는 않는다."고 말하기 때문입니다.
강력한 상관관계가 인과관계를 나타낼 수 있지만 쉽게 다른 설명이 있을 수도 있습니다.
- 변수가 관련된 것으로 보이지만 실제 근본적인 관계가 없는 무작위 기회의 결과일 수 있습니다.
- 관계를 실제보다 더 강력하게(혹은 약하게) 보이도록 만드는 제3의 잠복 변수가 있을 수 있습니다.
관측 데이터의 경우 상관관계는 인과관계를 확인할 수 없습니다...
변수 간 상관관계는 사용하는 변수가 함께 움직이는 경향이 있는 패턴이 데이터에 있음을 보여 줍니다. 그러나 상관관계만으로는 한 변수로 인해 다른 변수가 발생하기 때문에 데이터가 함께 움직이는지 여부를 알 수 없습니다.
실제로는 전혀 인과관계로 연계되지 않은 2개 변수의 통계적으로 유의미하고 신뢰할 수 있는 상관관계를 찾을 수 있습니다. 실제로는 이러한 상관관계가 일반적입니다! 때때로 이것은 두 변수가 모두 측정 중인 데이터와 함께 동시 발생하는 경향이 있는 서로 다른 인과관계 변수와 관련있기 때문입니다.
예제: 운동 및 피부암
이 내용을 예제에서 살펴보겠습니다. 건강 데이터를 확인하고 있다고 가정합니다. 운동과 피부암 사례 간에 통계적으로 유의미한 양의 상관관계를 관측합니다. 즉, 운동하는 사람들이 더 많이 피부암에 걸리는 경향이 있습니다. 이 상관관계는 강력하고 신뢰할 수 있는 것 같으며 여러 환자 모집단에서 나타납니다. 추가적으로 탐색할 필요없이 어느 정도 운동으로 인해 암이 발생한다는 결론을 내릴 수 있습니다! 이 결과를 기반으로 운동 스트레스로 인해 신체가 일광 노출 피해를 방지하는 일부 능력을 잃을 수 있다는 그럴 듯한 가설을 개발할 수도 있습니다.
하지만 현실에서 이 상관관계가 데이터 집합에 있다고 가정해 보십시오. 일년 내내 많은 햇빛을 받는 곳에 사는 사람은 그렇지 않은 곳에 사는 사람보다 일상 생활에서 훨씬 더 활동적이기 때문입니다. 이것은 데이터에서 운동 증가로 나타납니다. 동시에 일별 일광 노출 증가는 더 많은 피부암 사례가 있음을 의미합니다. 변수인 운동 비율과 피부암 비율은 둘 다 세 번째 인과관계 변수인 일광 노출의 영향을 받지만 인과관계는 없었습니다.
...하지만 잘 설계된 경험적 연구를 통해 인과관계를 설정할 수 있습니다!
인과관계 근거를 제공하는 항목과 제공하지 않는 항목을 구분하는 것은 데이터 활용 능력의 주요 부분입니다. 현실 세계에서는 인과관계를 완벽하게 확인할 수 없습니다. 그러나 여러 변수를 사용한 랜덤화, 대조 실험 및 예측 모델과 같이 인과관계에 대한 근거를 찾기 위한 다양한 실험, 통계 및 연구 설계 기법이 있습니다. 상관관계 검정의 본질적인 제한 사항(예: 상관관계는 3변량, 잠재적으로 인과관계를 측정할 수 없음) 이외에, 일반적으로 인과관계의 근거는 개별 통계적 검정이 아니라 신중한 실험 설계에서 나오는 것임을 이해해야 합니다.
예제: 심장병, 식습관 및 운동
질병 비율, 식습관 및 기타 건강 행동의 대규모 데이터 집합을 살펴보고 있는 건강 연구자라고 다시 가정해 봅니다. 다음 두 가지 상관관계를 찾는다고 생각해 봅니다. 심장병 증가는 지방 섭취 증가와 양의 상관관계가 있고 운동 증가는 심장병 감소와 음의 상관관계가 있습니다. 이 상관관계는 둘 다 규모가 크며 신뢰할 수 있음을 알 수 있습니다. 분명히 이것은 인과관계의 단서를 제공합니다. 그렇죠?
이 건강 데이터의 경우 상관관계는 근본적인 인과관계를 제시할 수 있지만, 추가 작업 없이는 인과관계를 설정하지 않습니다. 이 상관관계를 찾은 후 다음 단계로 신체가 지방을 흡수하는 방식과 이것이 심장에 미치는 영향을 검토하는 생물학적 연구를 설계한다고 가정합니다. 고지방 섭취는 심장에 특정 부담을 초래하는 방식으로 지방이 축적된다는 메커니즘을 알 수 있습니다. 운동을 더 자세히 살펴보고 운동이 지방 저장을 방해하므로 심장에 더 적은 부담을 초래하는 것을 발견하는 랜덤화된 대조 실험을 설계할 수도 있습니다.
이와 같은 모든 근거는 함께 고지방 식습관으로 인해 심장병이 발생할 수 있다는 설명을 뒷받침합니다. 또한 문제를 더 자세히 검토했을 때 원래 상관관계는 유효했습니다. 고지방 식습관과 심장병은 연계되어 있습니다!
하지만 이 예제에서는 인과관계 근거가 상관관계 검정 자체에서 제공되지 않았습니다. 상관관계 검정은 단순히 관측 데이터(예: 심장병 및 보고된 식습관과 운동의 비율) 간 관계를 검토합니다. 대신에, 경험적 연구 조사를 사용하여 이 연관성의 근거를 찾았습니다.
그러면 인과관계는 어떻게 검토하나요? 적합한 조사를 사용합니다!
인과관계를 이해하는 것은 어려운 문제입니다. 현실 세계에서 변수 간에 모든 가능한 관계를 그려야 할 수 있는 모든 데이터에 액세스하지는 않습니다. 하지만 서로 다른 변수 간에 메커니즘을 격리하고 탐색하는 데 도움이 되는 몇 가지 주요 전략이 있습니다. 예를 들어 대조 실험에서는 2개 그룹을 신중하게 대조하고 무작위로 처리 또는 해결책을 그룹 중 하나에만 적용해 볼 수 있습니다.
랜덤화의 원칙은 실험 설계의 핵심이며 이 맥락을 이해하면 통계적 검정에서 유추할 수 있는 정보가 바뀔 수 있습니다.
운동 비율과 피부암 비율 간 관계를 검토한 위의 첫 번째 예제를 다시 살펴보겠습니다. 전 세계에 분산된 대규모 사람 표본을 선택하고 10년 동안 매주 다른 수준의 운동을 시행하도록 무작위로 할당한다고 가정해 보겠습니다. 이 기간이 끝나면 이 대규모 그룹의 피부암 비율을 수집합니다. 결국 운동과 피부암 간에 관계를 검정하도록 실험적으로 설계된 데이터 집합이 생성됩니다! 실험에서 무작위 할당을 통해 운동을 직접 조작했기 때문에 데이터 집합은 이 2개 그룹 간에 서로 다를 수 있는 다른 변수에 조직적으로 관련되지 않습니다(연구의 다른 모든 측면이 유효하다고 가정). 즉, 이 경우 데이터는 타당한 실험 설계를 통해 도출되었으므로 운동과 피부암 간 양의 상관관계는 인과관계의 유의미한 근거가 됩니다.