预测和专业建模 > 探索离群值 > “探索离群值”报表 > “分位数范围离群值”报表
发布日期: 09/18/2023

“分位数范围离群值”报表

“探索离群值”平台中的“分位数范围离群值”报表包含一组组织在多个选项卡上的控件和结果。

“分位数范围离群值”控件

“分位数范围离群值”控件支持您指定要如何标识离群值。离群值是超过上下分位数 Q 倍四分位间距的所有值。您可以调整 Q 值和四分位间距的大小。

图 21.6 分位数范围离群值初始选项 

Quantile Range Outliers Initial Options

尾分位数

用于计算四分位间距的下分位数的概率。上分位数的概率通过“1 - 尾分位数”计算得出。例如,尾分位数值 0.1 意味着四分位间距介于数据的 0.1 和 0.9 分位数之间。默认值为 0.1。

Q

用于确定离群值阈值的乘数。落在超过“尾分位数”值或“1 - 尾分位数”值的 Q 倍四分位间距之外的值将标识为离群值。比起较小值,较大的 Q 值能提供更为保守的一组离群值。默认值为 3。

将搜索限制为整数

将离群值仅限定为整数值。该设置限制搜索离群值,以便查找行业特定的缺失值代码和错误代码。

重新扫描

在执行离群值操作之后重新扫描数据。

提示:按 Ctrl 键并点击重新扫描将用所有打开的离群值方法重新扫描。

关闭

关闭“分位数范围离群值”报表。

提示:按 Ctrl 键并点击关闭可关闭所有离群值报表。

按列选择离群值

“分位数范围离群值”报表中的“按列选择离群值”选项卡包含一个列表,这些列具有通过控件中指定的设置找到的离群值。该表显示上下分位数的值及其上下阈值。这些阈值之外的值被视为离群值。报表会指出每列中的离群值数。每个离群值的值列在表的最后一列中。对于某列中出现多次的离群值,还在括号中列出其出现的次数。

当在离群值表中选定一行或多行时,“按列选择离群值”选项卡包含以下可应用的选项:

仅显示带离群值的列

从“按列选择离群值”选项卡中的表删除没有离群值的列。

标识表中离群值

对离群值汇总表中选定行的原始数据表应用操作。

选择行

选择包含离群值的行。

排除行

应用排除行状态。点击重新扫描更新“分位数范围离群值”报表。

为单元格着色

为包含离群值的单元格着色。低值离群值着蓝色,高值离群值着红色。

为行着色

为包含离群值的行着色。

清除表中离群值

对离群值汇总表中选定行的原始数据表应用操作。

添加至缺失值代码

将离群值添加至“缺失值代码”列属性。使用该选项标识数据中已知的缺失值或错误代码。缺失值和错误代码通常是整数,有时是一串 9。点击重新扫描更新“分位数范围离群值”报表。

注意:若在启动窗口中指定了“依据”变量,则“添加至缺失值代码”不可用于“分位数范围离群值”。

更改为缺失

将离群值改为缺失值。将值改为缺失值时务必要小心。只有在明确数据无效或不准确时才将值改为缺失值。点击重新扫描更新“分位数范围离群值”报表。

注意:若选定的离群值已添加到缺失值代码中,则该离群值不会更改为缺失值。

公式列

为每列创建新的公式列,以便将离群值设置为缺失。新列以用户指定的名称作为前缀或后缀,以区别于原始列。默认情况下,后缀设置为“已剔除”。

公式脚本

创建一个添加到数据表的脚本。脚本运行时会为每列创建新的公式列,以便将离群值设置为缺失。新列以用户指定的名称作为前缀或后缀,以区别于原始列。默认情况下,后缀设置为“已剔除”。

按单元格选择离群值

“分位数范围离群值”报表中的“按单元格选择离群值”选项卡包含一个表,其中包含由控件指定的设置发现的单个离群值。该表显示列名、行号、离群值距离和单个离群值的实际值。离群值距离是用来衡量离群值极端程度的测度,使用以下等式计算:

离群值距离 = Equation shown here

其中

x = 离群值的实际值

m= 离群值所在列的中位数

IQR = 使用指定“尾分位数”的四分位间距

离群值距离越大表示离群值越极端。

当在离群值表中选定一行或多行时,“按单元格选择离群值”选项卡包含以下可应用的选项:

标识表中离群值

对离群值汇总表中选定行的原始数据表应用操作。

选择行和列

选择与所选离群值对应的行和列。

为单元格着色

对数据表中离群值所在的单元格着色。低值离群值着蓝色,高值离群值着红色。

清除表中离群值

对离群值汇总表中选定行的原始数据表应用操作。

添加至缺失值代码

将选定的离群值添加至“缺失值代码”列属性。使用该选项标识数据中已知的缺失值或错误代码。缺失值和错误代码通常是整数,有时是一串 9。点击重新扫描更新“分位数范围离群值”报表。

注意:若在启动窗口中指定了“依据”变量,则“添加至缺失值代码”不可用于“分位数范围离群值”。

更改为缺失

将离群值改为缺失值。将值改为缺失值时务必要小心。只有在明确数据无效或不准确时才将值改为缺失值。点击重新扫描更新“分位数范围离群值”报表。

注意:若选定的离群值已添加到缺失值代码中,则该离群值不会更改为缺失值。

按行选择离群值

“按行选择离群值”选项卡包含一个行表,其中包含由控件中指定的设置发现的离群值。该表显示行号以及在该行中发现的离群值数。

当在离群值表中选定一行或多行时,“按行选择离群值”选项卡包含以下可应用的选项:

标识表中离群值

对离群值汇总表中选定行的原始数据表应用操作。

选择行

选择包含离群值的行。

排除行

应用排除行状态。点击重新扫描更新“分位数范围离群值”报表。

为行着色

为包含离群值的行着色。

一串 9

“分位数范围离群值”报表中的“一串 9”选项卡显示一个包含可能的缺失值代码的列表。 这些缺失值代码是一串 9(通常为 9999),而且是所有一连串 9 的数字中的最大值并且高于上分位数。若计数较高,则这些离群值很可能实际上是缺失值代码。若计数很低,则应该进一步研究以确定该值是离群值还是缺失值代码。该表还包含上分位数值。

仅当识别出可能的缺失值代码时才显示“一串 9”选项卡。

当在表中选定一行或多行时,“一串 9”选项卡包含以下可选择的选项:

将最高一串 9 添加至缺失值代码

将选定的离群值添加至“缺失值代码”列属性。您必须点击重新扫描更新“分位数范围离群值”报表。

注意:若在启动窗口中指定了“依据”变量,则“将最高一串 9 添加至缺失值代码”不可用于“分位数范围离群值”。

将最高 9 更改为缺失

用数据表中的缺失值替换选定的离群值。

注意:首次通过选择某个操作(比如:更改为缺失或排除行)来更改数据时,警示窗口会提醒您使用另存为命令将数据表另存为新文件,以保留原始数据的副本。显示该窗口时,请点击确定。若决定保存新数据文件,系统会自动提示您使用新名称保存该文件。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).