使用“探索离群值”平台中的“K 最近邻离群值”根据到其最近邻的距离来识别离群值。对于每个 K 值,“K 最近邻离群值”方法都显示每个点到其第 K 个最近邻的欧氏距离图。您指定 k 的最大值,表示为 K。为 k = 1,2,3,5,...,K 提供了图,使用 Fibonacci 序列以避免显示过多图。
在计算最近邻之前,对列进行中心化和统一尺度。尺度因子定义如下:
max [Q(0.75) - Q(0.50), Q(0.50) - Q(0.25)] / [normalQuantile(0.75)]
其中
Q(p) 是第 p 分位数
注意:若 Q(0.75) 或 Q(0.25) 等于中位数,则会使用更极端的分位数,直到有一个非零的范围。
该方法对于指定的 k 值很敏感。较小的 k 可能会漏标离群值点,较大的 k 可能会将点误分类为离群值:
• 假定指定的 k 较小,以便您只研究少数近邻。若有超过 k 个点的聚类远离其他点,则该聚类内的点与其最近邻的距离较小。您可能无法检测离群值聚类。
• 假定指定的 k 较大,以便您研究大量近邻。若聚类内的数据点少于 k 个,则这些聚类内的点可能看起来就是离群值。此时您就可以忽略点构成聚类这一事实,而将单个聚类成员解释为离群值。