상관
상관관계란 무엇인가?
상관관계는 2개 변수가 선형 관계가 있는(상수 비율에서 함께 변경됨을 의미함) 범위를 표현하는 통계적 측도입니다. 원인과 결과에 관한 표현 없이 간단한 관계를 설명하는 일반적인 도구입니다.
상관관계는 어떻게 측정하나요?
표본 상관 계수인 r은 관계의 강도를 수량화합니다. 통계적 유의성에 대해서도 상관관계 여부를 검정합니다.
상관관계 분석의 제한 사항은 무엇인가요?
상관관계는 탐색되는 2개 변수가 아닌 다른 변수의 존재 또는 효과를 확인할 수 없습니다. 중요한 것은, 상관관계를 통해 원인 및 결과를 알 수 없다는 것입니다. 또한 상관관계는 곡선 관계를 정확하게 설명할 수 없습니다.
상관관계는 데이터에 관련성이 있는지를 설명합니다.
상관관계는 데이터 간 단순 관계를 설명하는 데 유용합니다. 예를 들어 산지 공원에 있는 야영지의 데이터 집합을 확인한다고 가정합니다. 야영지의 고도(산지의 높이)와 여름의 평균 최고 기온 간에 관계가 있는지에 대해 알아보려고 합니다.
각 개별 야영지의 경우 두 가지 측도는 고도 및 온도가 있습니다. 상관관계가 있는 표본에서 이 두 가지 변수를 비교하면 고도가 증가함에 따라 온도가 떨어지는 선형 관계를 찾을 수 있습니다. 음의 상관관계가 있습니다.
상관관계 수치는 무엇을 의미하나요?
상관관계를 상관 계수라고 하는 단위 없는 척도로 설명하는데, 이 계수는 -1~+1 범위에 있고 r로 표시됩니다. 통계적 유의성은 p 값으로 나타냅니다. 따라서 상관관계는 대개 2개의 키 숫자인 r = 및 p =로 작성됩니다.
- r이 0에 근접할수록 선형 관계가 약해집니다.
- 양수 r 값은 양의 상관관계를 나타냅니다. 여기서 두 변수 값은 함께 증가하는 경향이 있습니다.
- 음수 r 값은 음의 상관관계를 나타냅니다. 여기서 다른 변수 값이 감소할 때 한 변수 값은 증가하는 경향이 있습니다.
- p 값은 표본에서 관측한 것을 기반으로 모집단 상관 계수가 0과 다르다는 유의미한 결론을 내릴 수 있는 근거를 제공합니다.
- "단위 없는 측도"는 상관관계가 자체 척도로 존재한다는 것을 의미합니다. 이 예제에서 r에 제공되는 숫자는 고도 또는 온도와 같은 척도가 아닙니다. 이것은 다른 요약 통계와 다릅니다. 예를 들어 고도 측정치의 평균은 해당 변수와 동일한 척도를 기반으로 합니다.
p-값이란 무엇인가요?
p-값은 가설 검정에 사용되는 확률 측도입니다.
효과가 없는지(귀무가설의 경우) 확인하고 있는 데이터를 가져오는 우도를 나타냅니다. 야영지 데이터의 경우 이것은 고도와 온도 간에 선형 관계가 없다는 가설이 됩니다. p-값을 사용하여 결과를 통계적으로 유의한 것으로 설명하는 경우, 이는 대립가설을 위해 귀무가설을 기각하는 지점에 해당 값이 사전 정의된 경계(예: p <.05 또는 p <.01) 미만으로 떨어짐을 의미합니다(야영지 데이터의 경우 고도와 온도 간에 관계가 있음을 의미).
유의한 상관관계를 구한 후 해당 강도를 살펴볼 수 있습니다. 완벽한 양의 상관관계에는 값 1이 포함되며 완벽한 음의 상관관계에는 값 -1이 포함됩니다. 하지만 현실에서는 한 변수가 실제로 다른 변수의 프록시 측도인 경우가 아니면 완벽한 상관관계가 나타날 것으로 기대하지 않습니다. 실제로 완벽한 상관관계 수치를 살펴보면 데이터에 오차가 있다는 경고를 인지할 수 있습니다. 예를 들어 실수로 온도 대신에 각 야영지의 해수면부터의 거리를 기록한 경우 이 값은 고도와 완벽한 상관관계가 있습니다.
또 다른 유용한 정보는 관측 수인 N입니다. 대부분 통계적 검정처럼 표본 크기를 알고 있으면 표본의 강도 및 표본이 모집단을 얼마나 잘 나타내는지 판단하는 데 도움이 됩니다. 예를 들어 야영지 5개의 고도 및 온도만 측정했지만 공원에 2000개 야영지가 있는 경우 표본에 다른 야영지를 추가하려고 합니다.
산점도를 사용하여 상관관계 시각화
위 예제에서 살펴본 대로 야영지 고도가 증가하면 온도는 떨어집니다. 산점도를 통해 직접 확인할 수 있습니다. 야영지 데이터를 도표로 그렸다고 가정합니다.
- 도표의 각 점은 야영지 1개를 나타내며, 고도 및 여름 최고 온도를 기준으로 x축 및 y축에 야영지를 배치할 수 있습니다.
- 상관 계수(r)는 산점도를 보여 줍니다. 산점도에 그려진 점이 선형 관계에 얼마나 근접하는지 수치로 알려 줍니다. 상관관계의 강도가 높거나 r 값이 더 클수록 해당 점이 데이터에 적합시키는 선에 매우 가까운 관계를 의미합니다.
좀 더 복잡한 관계는 어떨까요?
산점도는 곡선 관계나 극단적 이상치처럼 비정상적인 패턴과 같은 정확한 상관관계를 방해할 수 있는 것이 데이터 내에 있는지 여부를 확인하는 데도 유용합니다.
상관관계는 곡선 관계를 정확하게 파악할 수 없습니다. 곡선 관계에서 변수는 관계가 변경되는 특정 점까지 주어진 방향으로 상관관계가 있습니다.
예를 들어 각 야영지 고도 및 야영객이 각 야영지를 평가한 평균 순위를 확인했다고 가정합니다. 처음에 고도 및 야영지 순위는 양의 상관관계가 있을 수 있습니다. 야영지가 높을수록 공원의 시야가 더 좋기 때문입니다. 하지만 특정 점에는 야영객들이 밤에 춥다고 느끼기 때문에 고도가 높을수록 야영지 순위는 음의 상관관계를 갖게 됩니다!
산점도에 음영 밀도 타원을 추가하면 훨씬 더 쉽게 이해할 수 있습니다. 밀도 타원은 산점도에서 밀도가 가장 높은 점 영역을 보여 주며, 이를 통해 상관관계의 강도 및 방향을 확인할 수 있습니다.
밀도 타원의 크기는 다양할 수 있습니다. 상관관계를 검토하는 한 가지 일반적인 선택은 95% 밀도 타원으로, 관측치 중 밀도가 가장 높은 95% 정도를 파악합니다. 야영지 고도 및 온도처럼 2개의 변수가 함께 움직이는 경우에는 이 밀도 타원이 선의 형태를 반전시킬 것으로 기대합니다. 또한 곡선 관계에서 밀도 타원은 곡선 형태로 보이는 것을 알 수 있습니다. 상관관계는 이 관계에 관한 유의미한 설명을 제공하지 않습니다.