“探索离群值”平台中的“稳健拟合离群值”报表包含一组组织在多个选项卡上的控件和结果。
“稳健拟合离群值”控件指定用于计算稳健估计值和乘数 K 的方法。在给定中心和散度稳健估计值的前提下,离群值定义为与稳健中心有 K 倍稳健散度的距离的那些值。
图 21.7 稳健拟合离群值控件
Huber
使用 Huber M 估计来估计中心和散度。该选项是默认选项。请参见 Huber and Ronchetti (2009)。
Cauchy
用 Cauchy 分布来计算中心和散度的估计值。Cauchy 估计值具有高度细分的点,通常比 Huber 估计值更为稳健。不过,若数据划分为多个聚类,则 Cauchy 分布往往只考虑聚类得较近的一半数据,而忽略其余数据。
四分位数
使用中位数作为中心测度,四分位间距 (IQR) 除以 1.34898 所得的结果作为散度测度。用因子 1.34898 除以 IQR 生成的散度对应于一个标准差(若为正态分布数据)。
K Sigma
一个倍数,用于确定离群值与中心有 K 倍散度的距离。比起较小值,较大的 K 值能提供更为保守的一组离群值。默认值为 4。
重新扫描
在执行离群值操作之后重新扫描数据。
提示:按 Ctrl 键并点击重新扫描将用所有打开的离群值方法重新扫描。
关闭
关闭“稳健拟合离群值”面板。
提示:按 Ctrl 键并点击关闭可关闭所有离群值报表。
“稳健拟合离群值”报表中的“按列选择离群值”选项卡包含一个表,其中为在启动窗口中选定的每个列都包含一行。表列取决于用于估计数据中心和散度的方法:Huber、Cauchy 或四分位数。对于每种方法,都有一列包含估计的中心、估计的散度以及基于中心和散度的离群值数量。
当在离群值表中选定一行或多行时,“按列选择离群值”选项卡包含以下可应用的选项:
仅显示带离群值的列
从“按列选择离群值”选项卡中的表删除没有离群值的列。
标识表中离群值
对离群值汇总表中选定行的原始数据表应用操作。
选择行
选择包含离群值的行。
排除行
应用排除行状态。点击重新扫描更新“稳健拟合离群值”报表。
为单元格着色
为包含离群值的单元格着色。低值离群值着蓝色,高值离群值着红色。
为行着色
为包含离群值的行着色。
清除表中离群值
对离群值汇总表中选定行的原始数据表应用操作。
添加至缺失值代码
将选定的离群值添加至“缺失值代码”列属性。使用该选项标识数据中已知的缺失值或错误代码。点击重新扫描更新“稳健拟合离群值”报表。
注意:若在启动窗口中指定了“依据”变量,则“添加至缺失值代码”不可用于“稳健拟合离群值”。
更改为缺失
将离群值改为缺失值。点击重新扫描更新“稳健拟合离群值”报表。
公式列
为每列创建新的公式列,以便将离群值设置为缺失。新列以用户指定的名称作为前缀或后缀,以区别于原始列。默认情况下,后缀设置为“已剔除”。
公式脚本
创建一个添加到数据表的脚本。脚本运行时会为每列创建新的公式列,以便将离群值设置为缺失。新列以用户指定的名称作为前缀或后缀,以区别于原始列。默认情况下,后缀设置为“已剔除”。
“稳健拟合离群值”报表中的“按单元格选择离群值”选项卡包含一个表,其中包含由控件指定的设置发现的单个离群值。该表显示列名、行号、离群值距离和单个离群值的实际值。离群值距离是用来衡量离群值极端程度的测度,使用以下等式计算:
离群值距离 =
其中
x = 离群值的实际值
c = 包含离群值的列的中心,用指定的离群值方法(Huber、Cauchy 或四分位数)来测量
s = 包含离群值的列的散度,用指定的离群值方法(Huber、Cauchy 或四分位数)来测量
离群值距离越大表示离群值越极端。
当在离群值表中选定一行或多行时,“按单元格选择离群值”选项卡包含以下可应用的选项:
标识表中离群值
对离群值汇总表中选定行的原始数据表应用操作。
选择行和列
选择与所选离群值对应的行和列。
为单元格着色
为包含离群值的单元格着色。低值离群值着蓝色,高值离群值着红色。
清除表中离群值
对离群值汇总表中选定行的原始数据表应用操作。
添加至缺失值代码
将选定的离群值添加至“缺失值代码”列属性。使用该选项标识数据中已知的缺失值或错误代码。缺失值和错误代码通常是整数,有时是一串 9。点击重新扫描更新“稳健拟合离群值”报表。
注意:若在启动窗口中指定了“依据”变量,则“添加至缺失值代码”不可用于“稳健拟合离群值”。
更改为缺失
将离群值改为数据表中的缺失值。将值改为缺失值时务必要小心。只有在明确数据无效或不准确时才将值改为缺失值。点击重新扫描更新“稳健拟合离群值”报表。
注意:若选定的离群值已添加到缺失值代码中,则该离群值不会更改为缺失值。