解决连续型和有序型列具有不同测量值尺度的问题。除数据被堆叠选项选中时,每列的值会通过减去列均值并除以列标准差的方式进行标准化。若不希望基于标准化值计算聚类距离,则取消选中“标准化数据”复选框。
减小离群值对连续型和有序型列的均值和标准差估计值的影响。该选项使用均值和标准差的 Huber M 估计值(Huber 1964;Huber 1973;Huber and Ronchetti 2009)。对于包含离群值的列,该选项在确定多元距离时可以更好地用标准化值来表示不同的测度。
注意:若取消选中“标准化数据”而选中“稳健标准化”,则所有列中的值的稳健均值和稳健标准差将组合起来共同用于标准化每一列。若列全部表示同一测量值尺度并且观测在所有维上都趋向于是离群值,这样该选项很有用。
警告:缺失值补缺假定不存在任何聚类、数据来自单个多元正态分布,并且值的缺失是完全随机的。因为这些假设通常在实践中是不合理的,需谨慎使用该功能。不过与放弃大多数的数据相比,该功能可生成更具说明性的结果。
(仅当选择数据被堆叠作为数据结构时才可用。) 当您的数据进行了堆叠并且包含两个对应于空间坐标(例如水平和垂直坐标)的特性列时,选择添加空间测度选项。该选项会打开一个窗口,您在其中选择为圆形、饼形和条纹形空间测度添加测度的空间成分以帮助聚类缺陷模式。这是专业方法,仅在非常特定的设置下适用。请参见空间测度和使用“空间测度”进行晶片次品分类的示例。