要启动“探索离群值”,请选择分析 > 筛选 > 探索离群值。随即显示启动窗口。
“探索离群值”实用工具启动窗口
Explore Outliers Utility Launch Window
在启动窗口中,将分析列选作 Y,列。您还可以指定依据变量。点击确定后,将显示“探索离群值”报表。您可以看到以下四个离群值分析命令:
“分位数范围离群值”窗口
Quantile Range Outliers Window
离群值是超过上下分位数 Q 倍四分位间距的所有值。您可以调整 Q 值和四分位间距的大小。
帮助确定离群值的倍数。离群值是超过尾分位数值和 Equation shown here值的 Q 倍四分位间距的值。比起较小值,较大的 Q 值能提供更为保守的离群值集。默认值为 3。
开启选定行的排除行状态。点击重新扫描更新“分位数范围离群值”报表。
将选定的离群值添加至“缺失值代码”列属性。您必须点击重新扫描更新“分位数范围离群值”报表。
注意:首次通过选择某个操作(比如:更改为缺失排除行)来更改数据时,警示窗口会提醒您使用另存为命令将数据表另存为新文件,以保留原始数据的副本。显示该窗口时,请点击确定。若决定保存新数据文件,请选择文件 > 另存为并使用新名称保存该文件。
“稳健拟合离群值”窗口
Robust Fit Outliers Window
在中心和散度稳健估计值的前提下,离群值定义为距离稳健中心 K 倍稳健散度的那些值。“稳健拟合离群值”窗口提供若干选项,用于计算稳健估计值和倍数 K,并提供用于管理发现的离群值的工具。
一个倍数,用于确定离群值与中心有 K 倍散度的距离。比起较小值,较大的 K 值能提供更为保守的离群值集。默认值为 4。
为数据表中选定列的离群值设置“排除行”状态。点击重新扫描以更新“稳健估计值和离群值”报表。
将离群值改为数据表中的缺失值。点击重新扫描以更新“稳健估计值和离群值”报表。
多元稳健离群值 Mahalanobis 距离图
Multivariate Robust Outliers Mahalanobis Distance Plot
多元稳健离群值 Mahalanobis 距离图显示 16 个不同列的 Mahalanobis 距离。该图包含上控制限 (UCL) 4.82。该上控制限可帮助指导发现可能的离群值的位置。不过,您应该自行判断哪些值是离群值。有关该上控制限 (UCL) 的更多详细信息,请参见 Mason and Young (2002)。
检测离群值的基本方法是将远离其他点的点视为离群值。确定某点与其他点簇的距离的一种方法就是探索与其最近邻的距离。对于每个 K 值,“多元 k 最近邻离群值”实用工具都显示每个点到其第 K 个最近邻的欧几里得距离。您指定 K 的最大值,表示为 k。为 Equation shown here 提供了图,忽略按 Fibonacci 序列排列的值以避免显示过多图。
该方法对于指定的 k 值很敏感。较小的 k 可能会漏标可能为离群值的点,较大的 k 可能会将点误分类为离群值:
假定指定的 k 较小,以便您只研究少数近邻。若有超过 k 个点的聚类远离其他点,则该聚类内的点与其最近邻的距离较小。您可能无法检测离群值聚类。
假定指定的 k 较大,以便您研究大量近邻。若聚类内的数据点少于 k 个,则这些聚类内的点可能看起来就是离群值。您可以忽略这一事实:点构成聚类,将单个聚类成员改为解释为离群值。
从命令列表中选择多元 k 最近邻离群值时,您需要指定 k 的值,以用作要考虑的最远邻居的上限。请注意默认值设置为 8。
该报表显示选定的 K 值一直到 k 值的图。每个图的 K 值都显示在其垂直轴标签之内,该标签的格式为“到邻近值 K = <a> 的距离”,其中,a 是一个表示第 a 个最近邻的整数。每个图都显示从第 i 行中的点到其第 a 个最近邻的距离。与其近邻的距离较远、跨多个 K 值的点很可能是离群值。