检测离群值的“分位数范围离群值”方法使用列中值的分位数分布来查找极值。分位数有助于检测离群值,因为分位数与分布假设无关。数据只是从小到大排序。例如,第 20 个分位数就是在这个值处,有 20% 的值较小。使用四分位间距(两个指定的分位数之间的距离)的倍数来查找极值。有关如何计算分位数的详细信息,请参见《基本分析》中的分位数。
“分位数范围离群值”实用工具还有助于标识存储在数据中的缺失值代码。正如之前指出的那样,在某些行业中,缺失值输入为多个 9(如 999 和 9999)。该实用工具将大于上四分位数的所有 9 都标识为可疑的缺失值代码。随后该实用工具会支持您将那些缺失值代码添加为数据表中的列属性。
“分位数范围离群值”面板支持您指定如何计算离群值以及您希望如何管理离群值。
图 20.6 “分位数范围离群值”窗口
离群值是超过上下分位数 Q 倍四分位间距的所有值。您可以调整 Q 值和四分位间距的大小。
尾分位数
用于计算四分位间距的下分位数的概率。上分位数的概率通过“1 - 尾分位数”计算得出。例如,尾分位数值 0.1 意味着四分位间距介于数据的 0.1 和 0.9 分位数之间。默认值为 0.1。
Q
帮助确定离群值的倍数。离群值是超过尾分位数值和“1 - 尾分位数”值的 Q 倍四分位间距的值。比起较小值,较大的 Q 值能提供更为保守的一组离群值。默认值为 3。
将搜索限制为整数
将离群值仅限定为整数值。该设置限制搜索离群值,以便查找行业特定的缺失值代码和错误代码。
仅显示具有离群值的列
将报表中的列列表限定为仅包含离群值的那些列。
使用您的指定显示报表后,可通过许多方法对这些极值进行操作。您可以通过选择“分位数范围离群值”报表中的指定列来选择列中的离群值。
选择行
选择数据表中选定列内的各行离群值。
排除行
开启“分位数范围离群值”报表的选定列中的离群值的排除行状态。点击重新扫描更新“分位数范围离群值”报表。
为单元格着色
对数据表中选定的离群值的单元格着色。
为行着色
为包含数据表中选定列的离群值的行着色。
添加至缺失值代码
将选定的离群值添加至“缺失值代码”列属性。使用该选项标识数据中已知的缺失值或错误代码。缺失值和错误代码往往是整数,有时还是正的或负的一串 9。点击重新扫描更新“分位数范围离群值”报表。
注意:若在启动窗口中指定了“依据”变量,则“添加至缺失值代码”不可用于“分位数范围离群值”。
更改为缺失
将离群值改为数据表中的缺失值。将值改为缺失值时务必要小心。只有在明确数据无效或不准确时才将值改为缺失值。点击重新扫描更新“分位数范围离群值”报表。
重新扫描
在执行离群值操作之后重新扫描数据。
注意:按住 Ctrl 键并点击重新扫描以重新扫描所有命令组。
关闭
关闭“分位数范围离群值”面板。
注意:按住 Ctrl 键并点击关闭以关闭所有命令窗口。
“分位数范围离群值”报表列出使用指定选项发现的所有包含离群值的列。该报表显示上下分位数的值及其上下阈值。这些阈值之外的值被视为离群值。报表会指出每列中的离群值数。每个离群值的值列在报表的最后一列中。对于某列中出现多次的离群值,还在括号中列出其出现的次数。要从列表中删除不带离群值的列,请选择仅显示带离群值的列。
读取该报表时需要注意以下几点。
• 错误代码。对于某些连续数据,可疑的较高整数值很可能是错误代码。例如,若上下分位数值都小于 0.5,则 1049 或 -777 之类的离群值就很可能是错误代码。
• 零。有时零也指示缺失值。若大多数数据都相当大,而您注意到离群值为零,则零很可能是缺失数据。
“分位数范围离群值”窗口中的“9999”报表显示一个列列表,其中包含可能的缺失值代码。这些缺失值代码是一串 9(通常为 9999),而且是所有一连串 9 的数字中的最大值并且高于上分位数。若计数较高,则这些离群值很可能实际上是缺失值代码。若计数很低,则应该进一步研究以确定该值是离群值还是缺失值代码。“9999”报表包括上分位数值。
仅当识别出可能的缺失值代码时才显示该报表。
将最高 9 添加至缺失值代码
将选定的离群值添加至“缺失值代码”列属性。您必须点击重新扫描更新“分位数范围离群值”报表。
将最高 9 更改为缺失
用数据表中的缺失值替换选定的离群值。
注意:首次通过选择某个操作(比如:更改为缺失或排除行)来更改数据时,警示窗口会提醒您使用另存为命令将数据表另存为新文件,以保留原始数据的副本。显示该窗口时,请点击确定。若决定保存新数据文件,系统会自动提示您使用新名称保存该文件。