전체를 보는 시각 > 여러 플랫폼에서 데이터 탐색의 예 > 다변량 플랫폼에서 패턴 및 관계 분석
발행일 : 08/23/2023

다변량 플랫폼에서 패턴 및 관계 분석

시리얼 예에서 건강한 식단을 위해 먹어야 할 시리얼과 피해야 할 시리얼을 식별했습니다. 이제 시리얼 변수 간에 어떤 관련이 있는지 확인하려고 합니다. 다변량 플랫폼을 사용하면 변수 간의 패턴과 관계를 관찰할 수 있습니다. "다변량" 보고서를 통해 다음이 가능합니다.

"상관" 테이블을 사용하여 각 반응 변수 쌍 간의 선형 관계 강도를 요약할 수 있습니다.

"산점도 행렬"을 사용하여 종속성, 이상치 및 군집을 식별할 수 있습니다.

다른 기법을 사용하여 부분 상관, 역상관, 쌍별 상관, 공분산 행렬 및 주성분 같은 여러 변수를 검토할 수 있습니다.

참고: 다변량 플랫폼에 대한 자세한 내용은 다변량 방법의 에서 확인하십시오.

시나리오

지방과 칼로리 같은 변수 사이의 관계를 확인하려고 합니다. 다변량 플랫폼에서 시리얼 데이터를 분석하면 다음 질문에 대한 답을 얻을 수 있습니다.

어떤 변수 쌍이 상관관계가 높습니까?

상관관계가 없는 변수 쌍은 무엇입니까?

다변량 보고서 생성

1. Cereal.jmp 데이터 테이블에서 "열" 패널 상단에 있는 아래쪽 삼각형을 클릭하여 행을 선택 취소합니다.

그림 6.6 행 선택 취소 

Deselecting Rows

2. 분석 > 다변량 방법 > 다변량을 선택합니다.

3. Calories부터 Potassium까지 선택하고 Y, 열을 클릭한 후 확인을 클릭합니다.

"다변량" 보고서가 나타납니다. 이 보고서에는 기본적으로 "상관" 보고서와 "산점도 행렬"이 포함됩니다. "상관" 보고서는 각 반응 변수(Y) 쌍 간 선형 관계의 강도가 요약된 상관계수의 행렬입니다. 숫자 색상이 어두울수록 상관관계가 낮음을 나타냅니다.

그림 6.7 상관 보고서 

Correlations Report

다음 사항을 알 수 있습니다.

"Calories" 열에서 칼로리는 나트륨 및 섬유질을 제외한 모든 변수와 높은 상관관계가 있습니다.

"Fiber" 열에서 섬유질과 칼륨은 높은 상관관계가 있는 것으로 나타납니다.

"Sodium" 열에서 나트륨은 다른 변수와 높은 상관관계가 없습니다.

"산점도 행렬"의 밀도 타원은 변수 간의 관계를 더 자세히 나타냅니다.

그림 6.8 산점도 행렬의 일부 

Portion of the Scatterplot Matrix

기본적으로 각 산점도에는 95%의 이변량 정규 밀도 타원이 있습니다. 각 변수 쌍이 이변량 정규분포를 따른다고 가정하면 이 타원은 전체 점의 약 95%를 둘러쌉니다. 타원이 상당히 둥근 형태이고 대각선 방향이 아니면 해당 변수 간에 상관관계가 없는 것입니다. 타원이 좁고 대각선 방향이면 해당 변수 간에 상관관계가 높은 것입니다.

다음 사항을 알 수 있습니다.

"Sodium" 행에서는 타원이 상당히 둥근 형태입니다. 이 모양은 나트륨이 다른 변수와 상관관계가 없음을 나타냅니다.

"Fat" 행에서는 "Nat. Bran Oats & Honey", "Cracklin’ Oat Bran" 및 "Banana Nut Crunch"를 나타내는 파란색 x 표식이 타원 바깥쪽에 나타납니다. 이러한 배치는 해당 데이터가 시리얼의 지방 함량 때문에 이상치임을 나타냅니다.

나중에 산점도 행렬을 자세히 살펴볼 것입니다.

4. "다변량"의 빨간색 삼각형을 클릭하고 쌍별 상관을 선택하여 "쌍별 상관" 보고서를 표시합니다.

그림 6.9 쌍별 상관 보고서의 일부 

Portion of the Pairwise Correlations Report

"쌍별 상관" 보고서에는 각 Y 변수 쌍에 대한 Pearson 곱적률 상관 계수가 나열됩니다. 또한 이 보고서는 유의 확률을 보여 주고 막대 차트로 상관관계를 비교합니다.

5. 상관관계가 높은 쌍을 빠르게 보려면 보고서를 마우스 오른쪽 버튼으로 클릭하고 열별 정렬, 유의 확률, 오름차순 체크박스를 선택한 후 확인을 클릭합니다.

가장 관련성이 높은 쌍이 보고서의 맨 위에 나타납니다. 쌍의 p 값이 작은 것은 상관관계의 증거를 나타냅니다. 가장 유의한 상관관계는 "Tot Carbo"(총 탄수화물)와 "Calories" 사이의 상관관계입니다.

그림 6.10 p 값이 작은 변수 쌍 

Small p-values for Pairs

결과 해석

결과를 살펴보면 다음 질문에 대한 답을 얻을 수 있습니다.

어떤 변수 쌍이 상관관계가 높습니까?

"상관" 보고서와 "산점도 행렬"은 "Calories"가 "Sodium" 및 "Fiber"를 제외한 모든 변수와 높은 상관관계에 있음을 보여 줍니다. "쌍별 상관" 보고서는 "Tot Carbo"(총 탄수화물)와 "Calories"가 가장 상관관계가 높은 변수 쌍이라는 것을 보여 줍니다.

상관관계가 없는 변수 쌍은 무엇입니까?

"상관" 보고서와 "산점도 행렬"은 "Sodium"이 다른 변수와 상관관계가 없음을 보여 줍니다.

결론

지방 함량이 높은 "100% Nat. Bran Oats & Honey"를 피해야 한다는 이전 결정에 더 확신을 갖게 되었습니다. "All-Bran with Extra Fiber"와 "Fiber One"을 먹어 본다는 것도 현명한 결정이었습니다. 이 두 가지 고섬유질 시리얼에는 칼로리, 지방 및 당분 섭취량을 줄이고 칼륨 섭취량을 높여 주는 추가적인 이점이 있습니다. 또한 칼로리가 높은 고탄수화물 시리얼도 피하기로 결정했습니다.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).