聚类是将在几个变量上享有相似值的观测分组在一起的一种多元方法。它可用于您理解数据的聚簇结构。
“层次聚类”依次组合聚类。该方法首先将每个观测视为一个聚类。然后逐步将距离上最相近的两个聚类合并成一个聚类。结果被描绘成一棵树,称为系统树图。
通常,层次聚类适用于不多于数万行的小数据表。该算法占用较长时间,因此大数据表运行会很缓慢。不过,“层次聚类”平台还提供两种方法,“快速 Ward”和“混合 Ward”,这两种方法减少了计算时间并可用于聚类更大的数据表。
注意:“层次聚类”支持字符列;“K 均值聚类”或“正态混合”要求使用数值列。
图 13.1 星座图的示例