“探索离群值”平台中的“K 最近邻”报表包含选定的 k 值一直到 K 值的图。每个图的 k 值都显示在其垂直轴标签内。该标签的格式为“到邻近值 K = <a> 的距离”,其中,a 是一个表示第 a 个最近邻的整数。每个图都显示从第 i 行中的点到其第 a 个最近邻的距离。与其近邻的距离较远、跨多个 K 值的点很可能是离群值。
图上方的按钮用于执行以下操作:
排除选定行
将与选定点对应的行从进一步分析中排除。这些行在数据表中被分配排除行状态。您需要决定是要重新运行还是关闭“K 最近邻”报表。重新运行该分析将标识新的最近邻。图随之更新,排除的点不再显示。
散点图矩阵
打开一个单独的窗口,其中包含分析中的所有列的散点图矩阵。您可以探索可能的离群值,这需要在“K 最近邻”图中选择这些离群值并在散点图矩阵中查看它们。
保存近邻距离
将每行到其第 n 个最近邻的距离另存为数据表中的新列。
关闭
关闭“K 最近邻”报表。
“K 最近邻”报表还包含一个“最大离群值”表。该表包含与其 K 个最近邻距离最大的 20 个观测。表中包含以下列:
行
观测的行号。
距离
指定行中的观测到第 K 个最近邻的距离。该表按该列降序排序。
最近邻
列出 k 个最近邻的行号。第一个行号是最近的最近邻。最后一个行号是第 K 个最近邻,该观测与指定行之间的距离可在“距离”列中找到。
列<n>
指定相应的 RMS 值的列名。
RMS<n>
每列的 k 最近邻之间的均方根差值。最大 RMS 值按顺序显示,其中 RMS1 是最大 RMS 值。第 p 个 RMS 值计算如下:
其中
Dp 是第 p 列
Dp,i 是行 i 的第 p 列的值
Dp,ik 是行 i 的第 k 个最近邻的第 p 列的值
注意:“最大离群值”表中显示的“列”和 RMS 列的数目是启动中指定的列数与数字 5 中的最小值。