“层次聚类”是 JMP 提供的对观测进行聚类的四个平台之一。有关四种方法的比较,请参见对观测聚类的平台概述。
层次聚类方法首先将每个观测作为一个聚类。在每一步中,聚类过程会计算各对聚类之间的距离,并将两个相距最近的聚类组合起来。该组合过程会一直进行到所有点都位于一个聚类中。层次聚类亦称为自下而上聚类,因为它使用的是一个组合方法。
自下而上的过程被描绘为一棵树,称为系统树图。为了帮助您确定聚类数,JMP 会提供距离图。您可以通过确定聚类之间的距离何时不再具有实际意义的方式来选择聚类数。
层次聚类也支持字符列,以如下方式定义距离:
• 若列为有序型,则用于聚类的值就是有序类别的索引,将像处理连续数据那样处理有序类别。这些值将像处理连续数据那样进行标准化。
• 若列为名义型,则类别匹配的两个观测之间的距离为 0。若类别不同,则距离为 1。
“层次聚类”提供给您五个规则用于定义聚类之间的距离:类平均法、重心法、Ward 法、最短距离法和最长距离法。每个规则会生成不同序列的聚类。
提示:层次聚类过程针对 n 个观测会从 n(n + 1)/2 个距离开始计算,但使用“快速 Ward”方法时除外。因此,当 n 较大时,该方法会运行较长时间。对于大量数值观测的情况,考虑使用“K 均值聚类”或“正态混合”。