전체를 보는 시각 > 여러 플랫폼에서 데이터 탐색의 예 > 군집화 플랫폼에서 유사 값 분석
발행일 : 08/23/2023

군집화 플랫폼에서 유사 값 분석

군집화는 여러 변수 중에서 유사한 값을 공유하는 관측값들을 함께 그룹화하는 다변량 기법입니다. 계층적 군집화는 행을 계층적 순서로 결합하여 트리로 표현합니다. 시리얼 예에서 고섬유질과 같은 특정 특성을 지닌 시리얼을 군집으로 그룹화하여 시리얼 간의 유사점을 확인할 수 있습니다.

참고: 계층적 군집화에 대한 자세한 내용은 다변량 방법의 에서 확인하십시오.

시나리오

어떤 시리얼들이 서로 유사하고 어떤 시리얼들이 서로 유사하지 않은지 알아보려고 합니다. 시리얼 데이터의 군집을 분석하면 다음 질문에 대한 답을 얻을 수 있습니다.

어떤 시리얼 군집의 영양가가 적습니까?

어떤 시리얼 군집이 비타민과 무기질이 풍부하고 당분과 지방은 적습니까?

어떤 시리얼 군집이 섬유질이 풍부하고 칼로리가 낮습니까?

계층적 군집화 그래프 생성

1. Cereal.jmp가 표시된 상태에서 분석 > 군집화 > 계층적 군집화를 선택합니다.

2. Calories부터 Enriched까지 선택하고 Y, 열을 클릭한 후 확인을 클릭합니다.

"계층적 군집화" 보고서가 나타납니다. 데이터 테이블 행 상태에 따라 군집에 색상이 적용됩니다.

그림 6.11 계층적 군집화 보고서의 일부 

Portion of the Hierarchical Clustering Report

3. "계층적 군집화"의 빨간색 삼각형을 클릭하고 군집 색 표시를 선택합니다.

덴드로그램의 관계에 따라 군집에 색상이 적용됩니다.

그림 6.12 색상이 적용된 군집 

Colored Clusters

각 군집 내의 시리얼은 유사한 특성을 갖습니다. 예를 들어 군집 1에 있는 시리얼은 시리얼 이름으로 판단할 때 섬유질이 많다고 추측할 수 있습니다.

"All-Bran with Extra Fiber"와 "Fiber One"이 군집 1로 그룹화된 방식에 주목하십시오. 이들 시리얼은 해당 군집 내 다른 두 시리얼보다 더 유사합니다.

그림 6.13 군집 1의 유사한 시리얼 

Similar Cereals in Cluster One

4. 군집 1을 선택하려면 오른쪽의 빨간색 수평선을 클릭합니다.

4개의 시리얼이 빨간색으로 강조 표시됩니다.

그림 6.14 군집 선택 

Selecting a Cluster

5. 군집 내 유사 특성을 확인하려면 "계층적 군집화"의 빨간색 삼각형을 클릭하고 군집 요약을 선택합니다.

보고서 하단의 "군집 요약" 그래프에 각 군집의 변수별 평균 값이 표시됩니다. 예를 들어 이 군집의 시리얼은 다른 군집의 시리얼보다 섬유질 및 칼륨 함량이 많습니다.

그림 6.15 군집 요약 

Cluster Summary

6. "계층적 군집화"의 빨간색 삼각형을 클릭하고 산점도 행렬을 선택합니다.

다변량 플랫폼에서 산점도 행렬을 만드는 대신 이 옵션을 사용할 수 있습니다.

"Potassium" 행의 "Fiber" 그림에 주목하십시오. 선택한 시리얼은 그림 오른쪽의 8g과 13g 사이에 있습니다. 이 위치는 군집 1의 시리얼에 섬유질과 칼륨이 많다는 것을 나타냅니다.

그림 6.16 군집 1 특성 

Cluster One Characteristics

참고: 해당 점은 이전에 생성한 산점도 행렬이 아직 열려 있으면 여기서도 선택됩니다.

결과 해석

군집을 각각 클릭하고 "군집 요약" 보고서를 보면 다음과 같은 특성을 알 수 있습니다.

"Fiber One"과 "All-Bran" 같은 군집 1의 시리얼은 섬유질 및 칼륨 함량은 높고 칼로리는 낮습니다.

어린이들이 좋아하는 시리얼이 많이 포함된 군집 2의 시리얼은 당분 함량이 높고 섬유질, 복합 탄수화물 및 단백질 함량은 낮습니다.

군집 3의 시리얼("Puffed Rice"와 "Puffed Wheat")은 칼로리는 낮지만 영양가가 거의 없습니다.

"Total Corn Flakes"와 "Multi-Grain Cheerios" 같은 군집 4의 시리얼은 하루에 필요한 비타민과 무기질을 100% 공급합니다. 이들 시리얼은 지방, 섬유질 및 당분 함량이 낮습니다.

군집 5의 시리얼은 단백질 및 지방 함량이 높고 나트륨 함량은 적습니다. 이 군집은 "Banana Nut Crunch"와 "Quaker Oatmeal" 같은 시리얼로 구성되어 있습니다.

군집 6의 시리얼은 지방 함량은 낮고 나트륨 및 탄수화물 함량은 높습니다. "Wheaties"와 "Grape-Nuts" 같은 전통적인 시리얼이 이 군집에 속합니다.

군집 7의 시리얼은 칼로리는 높고 섬유질 함량은 낮습니다. 말린 과일이 들어 있는 많은 시리얼이 이 군집에 속합니다("Mueslix Healthy Choice", "Low Fat Granola w Raisins", "Oatmeal Raisin Crisp", "Raisin Nut Bran" 및 "Just Right Fruit & Nut").

군집 8의 시리얼은 나트륨 및 당분 함량은 낮고 복합 탄수화물, 단백질 및 칼륨 함량은 풍부합니다. "Shredded Wheat" 및 "Mini-Wheat" 시리얼이 이 군집에 속합니다.

덴드로그램에서 결합 상태를 보면 각 군집에서 어떤 시리얼들이 가장 유사한지 알 수 있습니다.

군집 1에서는 "Fiber One"이 영양가 면에서 "All-Bran with Extra Fiber"와 유사합니다. "100% Bran"과 "All-Bran"도 유사합니다. 유사한 각 쌍의 시리얼들은 서로 다른 회사에서 제조되므로 서로 경쟁 관계에 있습니다.

군집 2에서 "Frosted Flakes"와 "Honey Frosted Wheaties"는 하나는 옥수수 플레이크이고 다른 하나는 밀 플레이크임에도 불구하고 서로 유사합니다. "Lucky Charms"와 "Frosted Cheerios"도 유사하고, "Cap’n’Crunch"와 "Trix"도 유사합니다.

결론

섬유질은 더 많이, 칼로리는 더 적게 섭취하려는 바람에 따라 군집 1의 시리얼을 먹어 보기로 결정합니다. 튀긴 밀과 튀긴 쌀로 구성되고 영양가가 거의 없는 군집 3의 시리얼은 피하려고 합니다. 또한 영양가가 높은 군집 4의 시리얼도 먹어 볼 것입니다.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).