“探索离群值”平台中的“分位数范围离群值”报表包含一组组织在多个选项卡上的控件和结果。
“分位数范围离群值”控件支持您指定要如何标识离群值。离群值是超过上下分位数 Q 倍四分位间距的所有值。您可以调整 Q 值和四分位间距的大小。
图 21.6 分位数范围离群值初始选项
尾分位数
用于计算四分位间距的下分位数的概率。上分位数的概率通过“1 - 尾分位数”计算得出。例如,尾分位数值 0.1 意味着四分位间距介于数据的 0.1 和 0.9 分位数之间。默认值为 0.1。
Q
用于确定离群值阈值的乘数。落在超过“尾分位数”值或“1 - 尾分位数”值的 Q 倍四分位间距之外的值将标识为离群值。比起较小值,较大的 Q 值能提供更为保守的一组离群值。默认值为 3。
将搜索限制为整数
将离群值仅限定为整数值。该设置限制搜索离群值,以便查找行业特定的缺失值代码和错误代码。
重新扫描
在执行离群值操作之后重新扫描数据。
提示:按 Ctrl 键并点击重新扫描将用所有打开的离群值方法重新扫描。
关闭
关闭“分位数范围离群值”报表。
提示:按 Ctrl 键并点击关闭可关闭所有离群值报表。
“分位数范围离群值”报表中的“按列选择离群值”选项卡包含一个列表,这些列具有通过控件中指定的设置找到的离群值。该表显示上下分位数的值及其上下阈值。这些阈值之外的值被视为离群值。报表会指出每列中的离群值数。每个离群值的值列在表的最后一列中。对于某列中出现多次的离群值,还在括号中列出其出现的次数。
当在离群值表中选定一行或多行时,“按列选择离群值”选项卡包含以下可应用的选项:
仅显示带离群值的列
从“按列选择离群值”选项卡中的表删除没有离群值的列。
标识表中离群值
对离群值汇总表中选定行的原始数据表应用操作。
选择行
选择包含离群值的行。
排除行
应用排除行状态。点击重新扫描更新“分位数范围离群值”报表。
为单元格着色
为包含离群值的单元格着色。低值离群值着蓝色,高值离群值着红色。
为行着色
为包含离群值的行着色。
清除表中离群值
对离群值汇总表中选定行的原始数据表应用操作。
添加至缺失值代码
将离群值添加至“缺失值代码”列属性。使用该选项标识数据中已知的缺失值或错误代码。缺失值和错误代码通常是整数,有时是一串 9。点击重新扫描更新“分位数范围离群值”报表。
注意:若在启动窗口中指定了“依据”变量,则“添加至缺失值代码”不可用于“分位数范围离群值”。
更改为缺失
将离群值改为缺失值。将值改为缺失值时务必要小心。只有在明确数据无效或不准确时才将值改为缺失值。点击重新扫描更新“分位数范围离群值”报表。
注意:若选定的离群值已添加到缺失值代码中,则该离群值不会更改为缺失值。
公式列
为每列创建新的公式列,以便将离群值设置为缺失。新列以用户指定的名称作为前缀或后缀,以区别于原始列。默认情况下,后缀设置为“已剔除”。
公式脚本
创建一个添加到数据表的脚本。脚本运行时会为每列创建新的公式列,以便将离群值设置为缺失。新列以用户指定的名称作为前缀或后缀,以区别于原始列。默认情况下,后缀设置为“已剔除”。
“分位数范围离群值”报表中的“按单元格选择离群值”选项卡包含一个表,其中包含由控件指定的设置发现的单个离群值。该表显示列名、行号、离群值距离和单个离群值的实际值。离群值距离是用来衡量离群值极端程度的测度,使用以下等式计算:
离群值距离 =
其中
x = 离群值的实际值
m= 离群值所在列的中位数
IQR = 使用指定“尾分位数”的四分位间距
离群值距离越大表示离群值越极端。
当在离群值表中选定一行或多行时,“按单元格选择离群值”选项卡包含以下可应用的选项:
标识表中离群值
对离群值汇总表中选定行的原始数据表应用操作。
选择行和列
选择与所选离群值对应的行和列。
为单元格着色
对数据表中离群值所在的单元格着色。低值离群值着蓝色,高值离群值着红色。
清除表中离群值
对离群值汇总表中选定行的原始数据表应用操作。
添加至缺失值代码
将选定的离群值添加至“缺失值代码”列属性。使用该选项标识数据中已知的缺失值或错误代码。缺失值和错误代码通常是整数,有时是一串 9。点击重新扫描更新“分位数范围离群值”报表。
注意:若在启动窗口中指定了“依据”变量,则“添加至缺失值代码”不可用于“分位数范围离群值”。
更改为缺失
将离群值改为缺失值。将值改为缺失值时务必要小心。只有在明确数据无效或不准确时才将值改为缺失值。点击重新扫描更新“分位数范围离群值”报表。
注意:若选定的离群值已添加到缺失值代码中,则该离群值不会更改为缺失值。
“按行选择离群值”选项卡包含一个行表,其中包含由控件中指定的设置发现的离群值。该表显示行号以及在该行中发现的离群值数。
当在离群值表中选定一行或多行时,“按行选择离群值”选项卡包含以下可应用的选项:
标识表中离群值
对离群值汇总表中选定行的原始数据表应用操作。
选择行
选择包含离群值的行。
排除行
应用排除行状态。点击重新扫描更新“分位数范围离群值”报表。
为行着色
为包含离群值的行着色。
“分位数范围离群值”报表中的“一串 9”选项卡显示一个包含可能的缺失值代码的列表。 这些缺失值代码是一串 9(通常为 9999),而且是所有一连串 9 的数字中的最大值并且高于上分位数。若计数较高,则这些离群值很可能实际上是缺失值代码。若计数很低,则应该进一步研究以确定该值是离群值还是缺失值代码。该表还包含上分位数值。
仅当识别出可能的缺失值代码时才显示“一串 9”选项卡。
当在表中选定一行或多行时,“一串 9”选项卡包含以下可选择的选项:
将最高一串 9 添加至缺失值代码
将选定的离群值添加至“缺失值代码”列属性。您必须点击重新扫描更新“分位数范围离群值”报表。
注意:若在启动窗口中指定了“依据”变量,则“将最高一串 9 添加至缺失值代码”不可用于“分位数范围离群值”。
将最高 9 更改为缺失
用数据表中的缺失值替换选定的离群值。
注意:首次通过选择某个操作(比如:更改为缺失或排除行)来更改数据时,警示窗口会提醒您使用另存为命令将数据表另存为新文件,以保留原始数据的副本。显示该窗口时,请点击确定。若决定保存新数据文件,系统会自动提示您使用新名称保存该文件。