该帮助的版本不再更新,请参见https://www.jmp.com/support/help/zh-cn/15.2 获取最新的版本.


检测离群值的基本方法是将远离其他点的点视为离群值。确定某点与其他点簇的距离的一种方法就是探索与其最近邻的距离。对于每个 K 值,“多元 k 最近邻离群值”实用工具都显示每个点到其第 K 个最近邻的欧氏距离图。您指定 K 的最大值,表示为 k。为 K = 1,2,3,...,k 提供了图,忽略按 Fibonacci 序列排列的值以避免显示过多图。
该方法对于指定的 k 值很敏感。较小的 k 可能会漏标离群值点,较大的 k 可能会将点误分类为离群值:
假定指定的 k 较小,以便您只研究少数近邻。若有超过 k 个点的聚类远离其他点,则该聚类内的点与其最近邻的距离较小。您可能无法检测离群值聚类。
假定指定的 k 较大,以便您研究大量近邻。若聚类内的数据点少于 k 个,则这些聚类内的点可能看起来就是离群值。此时您就可以忽略点构成聚类这一事实,而将单个聚类成员解释为离群值。
从命令列表中选择多元 k 最近邻离群值时,您需要指定 k 的值,以用作要考虑的最远邻居的上限。请注意默认值设置为 8。
该报表显示选定的 K 值一直到 k 值的图。每个图的 K 值都显示在其垂直轴标签之内。该标签的格式为“到邻近值 K = <a> 的距离”,其中,a 是一个表示第 a 个最近邻的整数。每个图都显示从第 i 行中的点到其第 a 个最近邻的距离。与其近邻的距离较远、跨多个 K 值的点很可能是离群值。
将每行到其第 n 个最近邻的距离另存为数据表中的新列。