下列选项指定在聚类分析中使用的“Y,列”变量的形式:
标准化数据
解决连续型和有序型列具有不同测量值尺度的问题。除数据被堆叠选项选中时,每列的值会通过减去列均值并除以列标准差的方式进行标准化。若不希望基于标准化值计算聚类距离,则取消选中“标准化数据”复选框。
稳健标准化
减小离群值对连续型和有序型列的均值和标准差估计值的影响。该选项使用均值和标准差的 Huber M 估计值(Huber 1964;Huber 1973;Huber and Ronchetti 2009)。对于包含离群值的列,该选项在确定多元距离时可以更好地用标准化值来表示不同的测度。
注意:若同时选中“标准化数据”和“稳健标准化”,则通过减去列的稳健均值再除以其稳健标准差对每列进行标准化。若列表示不同的测量值尺度或观测仅在特定维上趋向于是离群值,这样该选项很有用。
注意:若取消选中“标准化数据”而选中“稳健标准化”,则所有列中的值的稳健均值和稳健标准差将组合起来共同用于标准化每一列。若列全部表示同一测量值尺度并且观测在所有维上都趋向于是离群值,这样该选项很有用。
缺失值补缺
补缺缺失值。若变量数小于等于 50 或少于行数的一半,则使用多元正态补缺。否则使用多元 SVD 补缺。
多元正态补缺计算配对协方差以构造响应列的协方差矩阵。然后,通过等价于回归预测的方法,使用给定变量不带缺失值的所有预测变量补缺每个缺失值。若构造的协方差矩阵不是正定矩阵,则使用其列均值对缺失值补缺。
多元 SVD 补缺通过使用奇异值分解避免构造协方差矩阵。请参见《预测和专业建模》中的“探索缺失值”实用工具。
警告:缺失值补缺假定不存在任何聚类、数据来自单个多元正态分布,并且值的缺失是完全随机的。因为这些假设通常在实践中是不合理的,需谨慎使用该功能。不过与放弃大多数的数据相比,该功能可生成更具说明性的结果。
添加空间测度
(仅当选择数据被堆叠作为数据结构时才可用。)当您的数据进行了堆叠并且包含两个对应于空间坐标(例如水平和垂直坐标)的特性列时,选择添加空间测度选项。该选项将打开一个窗口,您可在其中选择和权衡空间成分以帮助聚类缺陷模式。这是专业方法,仅在非常特定的设置下适用。请参见空间测度和使用“空间测度”进行晶片次品分类的示例。