使用“K 最近邻离群值”根据到其最近邻的距离来识别离群值。对于每个 K 值,“K 最近邻离群值”实用工具都显示每个点到其第 K 个最近邻的欧氏距离图。您指定 k 的最大值,表示为 K。为 k = 1,2,3,5,...,K 提供了图,使用 Fibonacci 序列以避免显示过多图。
在计算最近邻之前,对列进行中心化和统一尺度。尺度因子定义如下:
max [Q(.75) - Q(.50), Q(.50) - Q(.25)] / [正态分位数(0.75)]
其中
Q(p) 是第 p 分位数
注意:若 Q(75) 或 Q(25) 等于中位数,则会使用更极端的分位数,直到有一个非零的范围。
该方法对于指定的 k 值很敏感。较小的 k 可能会漏标离群值点,较大的 k 可能会将点误分类为离群值:
• 假定指定的 k 较小,以便您只研究少数近邻。若有超过 k 个点的聚类远离其他点,则该聚类内的点与其最近邻的距离较小。您可能无法检测离群值聚类。
• 假定指定的 k 较大,以便您研究大量近邻。若聚类内的数据点少于 k 个,则这些聚类内的点可能看起来就是离群值。此时您就可以忽略点构成聚类这一事实,而将单个聚类成员解释为离群值。
从命令列表中选择“K 最近邻离群值”时,您需要指定 k 的值,以用作要考虑的最远邻居的上限。还必须指定是否应插补缺失值。请注意,K 设置为 8,并且默认选定“插补缺失值”。
该报表显示选定的 k 值一直到 K 值的图。每个图的 k 值都显示在其垂直轴标签内。该标签的格式为“到邻近值 K = <a> 的距离”,其中,a 是一个表示第 a 个最近邻的整数。每个图都显示从第 i 行中的点到其第 a 个最近邻的距离。与其近邻的距离较远、跨多个 K 值的点很可能是离群值。
图上方的按钮用于执行以下操作:
排除选定行
将与选定点对应的行从进一步分析中排除。这些行在数据表中被分配排除行状态。您需要决定是要重新运行还是关闭“K 最近邻”报表。重新运行该分析将标识新的最近邻。图随之更新,排除的点不再显示。
散点图矩阵
打开一个单独的窗口,其中包含分析中的所有列的散点图矩阵。您可以探索可能的离群值,这需要在“K 最近邻”图中选择这些离群值并在散点图矩阵中查看它们。
保存近邻距离
将每行到其第 n 个最近邻的距离另存为数据表中的新列。
关闭
关闭“K 最近邻”报表。
该报表还包括“最大离群值”表。该表包含与其 K 个最近邻距离最大的 20 个观测。表中包含以下列:
行
观测的行号。
距离
指定行中的观测到第 K 个最近邻的距离。该表按该列降序排序。
最近邻
列出 k 个最近邻的行号。第一个行号是最近的最近邻。最后一个行号是第 K 个最近邻,该观测与指定行之间的距离可在“距离”列中找到。
列<n>
指定相应的 RSM 值的列名。
RSM<n>
计算每列的 k 最近邻之间的均方根差值。五个最大 RSM 值按顺序显示,其中 RSM1 是最大 RSM 值。第 p 个 RSM 值计算如下:
其中
Dp 是第 p 列
Dp,i 是行 i 的第 p 列的值
Dp,ik 是行 i 的第 k 个最近邻的第 p 列的值
注意:“最大离群值”表中显示的“列”和 RSM 列的数目是启动中指定的列数与数字 5 中的最小值。