本例按照各国 2009 年每 1000 人的粗略出生率和死亡率将各国分组,以便检查数据中的聚类。
1. 选择帮助 > 样本数据文件夹,然后打开 Birth Death Subset.jmp。
2. 选择分析 > 聚类 > 层次聚类。
3. 选择出生率和死亡率并点击 Y,列。
4. 选择国家并点击标签。
该选择可确保国家列(而不是行号)用于对点击“确定”后出现的系统树图添加标签。
5. 点击确定。
6. 点击“层次聚类”红色小三角并选择聚类着色。
图 13.2 “层次聚类”报表
该系统树图显示聚类是如何执行的。可以从左到右读取系统树图来查看聚类过程。每步包括将两个最近聚类组成一个聚类。
在系统树图中,聚类之间的相对距离由连接聚类的垂线之间的水平距离给出。例如,Afghanistan 和 Zaire 之间的距离大于 Malaysia 与 Mexico 和 Venezuela 组成的聚类之间的距离。
菱形设置在四个聚类处。最近连接起来形成四聚类模型的两个聚类是由 Algeria 到 Bangladesh 组成的聚类以及由 Iraq 到 Saudi Arabia 组成的聚类。这两个聚类之间的距离是菱形设置为 4 时距离图上由垂直线指示的点。该距离在“聚类数”等于 4 旁边的“聚类历史”报表中给出。此处显示该距离为 1.618708760 并且聚类从 Algeria 和 Iraq 开始组合形成四个聚类。
有四个聚类时,距离图斜率有明显变化。斜率变化指出在剩下四个聚类之前所连接的聚类之间的差异相对较小。这表明 4 是聚类数不错的选择。注意到这是默认显示的聚类数。
7. 点击“层次聚类”红色小三角并选择星座图。
图 13.3 星座图
该星座图将国家显示为端点,将每个聚类连接显示为新点。各条线表示聚类中的成员关系。聚类连接之间的线长度近似等于连接的聚类之间的距离。星座图表明,包含阿富汗和扎伊尔的聚类与两个主要聚类中每个聚类的距离大致相同。