发布日期: 04/13/2021

多元 k 最近邻离群值

检测离群值的基本方法是将远离其他点的点视为离群值。确定某点与其他点簇的距离的一种方法就是探索与其最近邻的距离。对于每个 K 值,“多元 k 最近邻离群值”实用工具都显示每个点到其第 K 个最近邻的欧氏距离图。您指定 K 的最大值,表示为 k。为 K = 1,2,3,...,k 提供了图,忽略按 Fibonacci 序列排列的值以避免显示过多图。

该方法对于指定的 k 值很敏感。较小的 k 可能会漏标离群值点,较大的 k 可能会将点误分类为离群值:

假定指定的 k 较小,以便您只研究少数近邻。若有超过 k 个点的聚类远离其他点,则该聚类内的点与其最近邻的距离较小。您可能无法检测离群值聚类。

假定指定的 k 较大,以便您研究大量近邻。若聚类内的数据点少于 k 个,则这些聚类内的点可能看起来就是离群值。此时您就可以忽略点构成聚类这一事实,而将单个聚类成员解释为离群值。

“K 最近邻”报表

从命令列表中选择多元 k 最近邻离群值时,您需要指定 k 的值,以用作要考虑的最远邻居的上限。请注意默认值设置为 8。

该报表显示选定的 K 值一直到 k 值的图。每个图的 K 值都显示在其垂直轴标签之内。该标签的格式为“到邻近值 K = <a> 的距离”,其中,a 是一个表示第 a 个最近邻的整数。每个图都显示从第 i 行中的点到其第 a 个最近邻的距离。与其近邻的距离较远、跨多个 K 值的点很可能是离群值。

图上方的按钮用于执行以下操作:

排除选定行

将与选定点对应的行从进一步分析中排除。这些行在数据表中被分配排除行状态。您需要决定是要重新运行还是关闭“K 最近邻”报表。重新运行该分析将标识新的最近邻。图随之更新,排除的点不再显示。

散点图矩阵

打开一个单独的窗口,其中包含分析中的所有列的散点图矩阵。您可以探索可能的离群值,这需要在“K 最近邻”图中选择这些离群值并在散点图矩阵中查看它们。

保存近邻距离

将每行到其第 n 个最近邻的距离另存为数据表中的新列。

关闭

关闭“K 最近邻”报表。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).