检测离群值的“分位数范围离群值”方法使用列中值的分位数分布来查找极值。分位数有助于检测离群值,因为分位数与分布假设无关。数据只是从小到大排序。例如,第 20 个分位数就是在这个值处,有 20% 的值较小。使用四分位间距(两个指定的分位数之间的距离)的倍数来查找极值。有关如何计算分位数的详细信息,请参见《基本分析》中的分位数的统计详细信息。
“分位数范围离群值”实用工具还有助于标识存储在数据中的缺失值代码。正如之前指出的那样,在某些行业中,缺失值输入为多个 9(如 999 或 9999)。该实用工具将大于上四分位数的所有 9 都标识为可疑的缺失值代码。随后该实用工具会支持您将那些缺失值代码添加为数据表中的列属性。
“分位数范围离群值”面板支持您指定如何标识离群值以及您希望如何管理离群值。
图 21.6 “分位数范围离群值”窗口
离群值是超过上下分位数 Q 倍四分位间距的所有值。您可以调整 Q 值和四分位间距的大小。
尾分位数
用于计算四分位间距的下分位数的概率。上分位数的概率通过“1 - 尾分位数”计算得出。例如,尾分位数值 0.1 意味着四分位间距介于数据的 0.1 和 0.9 分位数之间。默认值为 0.1。
Q
用于确定离群值阈值的乘数。落在超过“尾分位数”值或“1 - 尾分位数”值的 Q 倍四分位间距之外的值将标识为离群值。比起较小值,较大的 Q 值能提供更为保守的一组离群值。默认值为 3。
将搜索限制为整数
将离群值仅限定为整数值。该设置限制搜索离群值,以便查找行业特定的缺失值代码和错误代码。
仅显示带离群值的列
将报表中的列列表限定为仅包含离群值的那些列。
使用您的指定显示报表后,可通过许多方法对这些极值进行操作。您可以通过选择“分位数范围离群值”报表中的指定列来选择列中的离群值。
提示:若在报表中未选择任何列,并且您点击以下按钮之一,则会显示一条“JMP 警示”,支持您选择所有列。
选择行
选择数据表中选定列内的各行离群值。
排除行
开启“分位数范围离群值”报表的选定列中的离群值的排除行状态。点击重新扫描更新“分位数范围离群值”报表。
为单元格着色
对数据表中选定的离群值的单元格着色。
为行着色
为包含数据表中选定列的离群值的行着色。
添加至缺失值代码
将选定的离群值添加至“缺失值代码”列属性。使用该选项标识数据中已知的缺失值或错误代码。缺失值和错误代码通常是整数,有时是一串 9。点击重新扫描更新“分位数范围离群值”报表。
注意:若在启动窗口中指定了“依据”变量,则“添加至缺失值代码”不可用于“分位数范围离群值”。
更改为缺失
将离群值改为数据表中的缺失值。将值改为缺失值时务必要小心。只有在明确数据无效或不准确时才将值改为缺失值。点击重新扫描更新“分位数范围离群值”报表。
注意:若选定的离群值已添加到缺失值代码中,则该离群值不会更改为缺失值。
公式列
为启动窗口中指定的每列创建新的公式列。若原始列的值位于离群值限值内,则每个新列都包含原始列的值,否则设置为缺失。新列以用户指定的名称作为前缀或后缀,以区别于原始列。默认情况下,后缀设置为“已剔除”。
公式脚本
创建一个添加到数据表的脚本。运行该脚本时,为启动窗口中指定的每列创建新的公式列。若原始列的值位于离群值限值内,则每个新列都包含原始列的值,否则设置为缺失。新列以用户指定的名称作为前缀或后缀,以区别于原始列。默认情况下,后缀设置为“已剔除”。
重新扫描
在执行离群值操作之后重新扫描数据。
注意:按 Ctrl 键并点击重新扫描将重新扫描所有命令组。
关闭
关闭“分位数范围离群值”面板。
注意:按 Ctrl 键并点击关闭可关闭所有命令窗口。
“分位数范围离群值”报表列出使用指定选项发现的所有包含离群值的列。该报表显示上下分位数的值及其上下阈值。这些阈值之外的值被视为离群值。报表会指出每列中的离群值数。每个离群值的值列在报表的最后一列中。对于某列中出现多次的离群值,还在括号中列出其出现的次数。要从列表中删除不带离群值的列,请选择仅显示带离群值的列。
读取该报表时需要注意以下几点。
• 错误代码。对于某些连续数据,可疑的较高整数值很可能是错误代码。例如,若上下分位数值都小于 0.5,则 1049 或 -777 之类的离群值就很可能是错误代码。
• 零。有时零也指示缺失值。若大多数数据都相当大,而您注意到离群值为零,则零很可能是缺失数据。
“分位数范围离群值”窗口中的“9”报表显示一个列列表,其中包含可能的缺失值代码。 这些缺失值代码是一串 9(通常为 9999),而且是所有一连串 9 的数字中的最大值并且高于上分位数。若计数较高,则这些离群值很可能实际上是缺失值代码。若计数很低,则应该进一步研究以确定该值是离群值还是缺失值代码。“9999”报表包括上分位数值。
仅当识别出可能的缺失值代码时才显示该报表。
将最高 9 添加至缺失值代码
将选定的离群值添加至“缺失值代码”列属性。您必须点击重新扫描更新“分位数范围离群值”报表。
注意:若在启动窗口中指定了“依据”变量,则“将最高 9999 添加至缺失值代码”不可用于“分位数范围离群值”。
将最高 9 更改为缺失
用数据表中的缺失值替换选定的离群值。
注意:首次通过选择某个操作(比如:更改为缺失或排除行)来更改数据时,警示窗口会提醒您使用另存为命令将数据表另存为新文件,以保留原始数据的副本。显示该窗口时,请点击确定。若决定保存新数据文件,系统会自动提示您使用新名称保存该文件。