聚类算法以迭代方式拆分变量的原始类别并将变量重新分配到新的类别,直到不可能再进一步拆分。初始聚类包含所有变量。该算法由 SAS 开发并且在 PROC VARCLUS 中实现 (SAS Institute Inc. 2018g)。
注意:该算法仅使用“Y,列”列表中的变量没有缺失值的观测。
算法中的迭代步骤如下所示:
1. 对于所有聚类,请执行以下操作:
计算每个聚类中的变量的主成分。
若所有聚类的第二特征值均小于 1,则终止算法。
2. 按以下步骤把第二特征值最大(且大于 1)的聚类分成两个聚类:
使用斜交旋转来旋转当前聚类中的变量的主成分。
定义一个聚类,使其包含当前聚类中的变量满足:该变量与第一旋转主成分的平方相关性高于该变量与第二主成分的平方相关性。
定义另一个聚类,使其包含原始聚类中的其余变量。这些变量与第二主成分具有更高的相关性。
计算两个新聚类的主成分。
3. 通过检验来判定数据集中的任何变量是否应分配给不同的聚类。对于每个变量,请执行以下操作:
计算变量与每个聚类的第一主成分的平方相关性。
将变量放置在与其的平方相关性最高的聚类中。
注意:斜交旋转亦称原始四次方最大正交旋转。请参见 Harris and Kaiser (1964)。