•
|
•
|
•
|
检测离群值的“分位数范围离群值”方法使用列中值的分位数分布来查找极值。分位数有助于检测离群值,因为分位数不关联分布假设。数据只是从小到大排序。例如,第 20 个分位数就是有 20% 的值较小的值位置。使用四分位间距(两个指定的分位数之间的距离)的倍数来查找极值。有关如何计算分位数的更多详细信息,请参见《基本分析》手册中的分位数。
“分位数范围离群值”面板支持您指定如何计算离群值以及您希望如何管理离群值。“分位数范围离群值”窗口显示了默认的“分位数范围离群值”窗口。
开启选定行的排除行状态。点击重新扫描更新“分位数范围离群值”报表。
将选定的离群值添加至缺失值代码列属性。使用该选项标识数据中已知的缺失值或错误代码。缺失值和错误代码往往是整数,有时还是正的或负的一串 9。点击重新扫描更新“分位数范围离群值”报表。
将离群值改为数据表中的缺失值。将值改为缺失值时务必要小心。只有在明确数据无效或不准确时才将值改为缺失值。点击重新扫描更新“分位数范围离群值”报表。
将选定的离群值添加至“缺失值代码”列属性。您必须点击重新扫描更新“分位数范围离群值”报表。
注意:首次通过选择某个操作(比如:更改为缺失或排除行)来更改数据时,警示窗口会提醒您使用另存为命令将数据表另存为新文件,以保留原始数据的副本。显示该窗口时,请点击确定。若决定保存新数据文件,请选择文件 > 另存为并使用新名称保存该文件。
为数据表中选定列的离群值设置“排除行”状态。点击重新扫描以更新“稳健估计值和离群值”报表。
针对选定列,将选定的离群值添加至“缺失值代码”列属性。使用该选项标识数据中已知的缺失值或错误代码。点击重新扫描以更新“稳健估计值和离群值”报表。
将离群值改为数据表中的缺失值。点击重新扫描以更新“稳健估计值和离群值”报表。
离群值分析计算从每个点到多元正态分布的中心的 Mahalanobis 距离。该测度关系到相对于相关性结构的多元正态密度的等高线。与中心的距离越远,成为离群值的概率就越高。有关 Mahalanobis 距离和其他距离测度的详细信息,请参见《多元方法》手册中的“多元”平台选项。
您可以通过选择“Mahalanobis 距离”红色小三角菜单中的保存选项将距离保存到数据表中。
多元稳健离群值 Mahalanobis 距离图显示 16 个不同列的 Mahalanobis 距离。该图包含上控制限 (UCL) 4.82。该上控制限可帮助指导发现可能的离群值的位置。不过,您应该自行判断哪些值是离群值。有关该上控制限 (UCL) 的更多详细信息,请参见 Mason and Young (2002)。
检测离群值的基本方法是将远离其他点的点视为离群值。确定某点与其他点簇的距离的一种方法就是探索与其最近邻的距离。对于每个 K 值,“多元 k 最近邻离群值”实用工具都显示每个点到其第 K 个最近邻的欧几里得距离。您指定 K 的最大值,表示为 k。为 提供了图,忽略按 Fibonacci 序列排列的值以避免显示过多图。
•
|
•
|
从命令列表中选择多元 k 最近邻离群值时,您需要指定 k 的值,以用作要考虑的最远邻居的上限。请注意默认值设置为 8。
该报表显示选定的 K 值一直到 k 值的图。每个图的 K 值都显示在其垂直轴标签之内,该标签的格式为“到邻近值 K = <a> 的距离”,其中,a 是一个表示第 a 个最近邻的整数。每个图都显示从第 i 行中的点到其第 a 个最近邻的距离。与其近邻的距离较远、跨多个 K 值的点很可能是离群值。