聚类是将在几个变量上享有相似值的观测分组在一起的一种多元方法。它可用于您理解数据的聚簇结构。
“层次聚类”依次组合聚类。该方法首先将每个观测视为一个聚类。然后逐步将距离上最相近的两个聚类合并成一个聚类。结果被描绘成一棵树,称为系统树图。
可以对不多于数万行的小数据表使用“层次聚类”。该算法占用较长时间,因此大数据表运行会很缓慢。对于较大的数据表,则使用“K 均值聚类”或“正态混合”。
注意:“层次聚类”支持字符列;“K 均值聚类”或“正态混合”要求使用数值列。
图 12.1 星座图的示例