预测和专业建模 > 探索离群值 > “探索离群值”报表 > “稳健拟合离群值”报表
发布日期: 09/18/2023

“稳健拟合离群值”报表

“探索离群值”平台中的“稳健拟合离群值”报表包含一组组织在多个选项卡上的控件和结果。

“稳健拟合离群值”初始选项

“稳健拟合离群值”控件指定用于计算稳健估计值和乘数 K 的方法。在给定中心和散度稳健估计值的前提下,离群值定义为与稳健中心有 K 倍稳健散度的距离的那些值。

图 21.7 稳健拟合离群值控件 

Robust Fit Outliers Controls

Huber

使用 Huber M 估计来估计中心和散度。该选项是默认选项。请参见 Huber and Ronchetti (2009)。

Cauchy

用 Cauchy 分布来计算中心和散度的估计值。Cauchy 估计值具有高度细分的点,通常比 Huber 估计值更为稳健。不过,若数据划分为多个聚类,则 Cauchy 分布往往只考虑聚类得较近的一半数据,而忽略其余数据。

四分位数

使用中位数作为中心测度,四分位间距 (IQR) 除以 1.34898 所得的结果作为散度测度。用因子 1.34898 除以 IQR 生成的散度对应于一个标准差(若为正态分布数据)。

K Sigma

一个倍数,用于确定离群值与中心有 K 倍散度的距离。比起较小值,较大的 K 值能提供更为保守的一组离群值。默认值为 4。

重新扫描

在执行离群值操作之后重新扫描数据。

提示:按 Ctrl 键并点击重新扫描将用所有打开的离群值方法重新扫描。

关闭

关闭“稳健拟合离群值”面板。

提示:按 Ctrl 键并点击关闭可关闭所有离群值报表。

按列选择离群值

“稳健拟合离群值”报表中的“按列选择离群值”选项卡包含一个表,其中为在启动窗口中选定的每个列都包含一行。表列取决于用于估计数据中心和散度的方法:Huber、Cauchy 或四分位数。对于每种方法,都有一列包含估计的中心、估计的散度以及基于中心和散度的离群值数量。

当在离群值表中选定一行或多行时,“按列选择离群值”选项卡包含以下可应用的选项:

仅显示带离群值的列

从“按列选择离群值”选项卡中的表删除没有离群值的列。

标识表中离群值

对离群值汇总表中选定行的原始数据表应用操作。

选择行

选择包含离群值的行。

排除行

应用排除行状态。点击重新扫描更新“稳健拟合离群值”报表。

为单元格着色

为包含离群值的单元格着色。低值离群值着蓝色,高值离群值着红色。

为行着色

为包含离群值的行着色。

清除表中离群值

对离群值汇总表中选定行的原始数据表应用操作。

添加至缺失值代码

将选定的离群值添加至“缺失值代码”列属性。使用该选项标识数据中已知的缺失值或错误代码。点击重新扫描更新“稳健拟合离群值”报表。

注意:若在启动窗口中指定了“依据”变量,则“添加至缺失值代码”不可用于“稳健拟合离群值”。

更改为缺失

将离群值改为缺失值。点击重新扫描更新“稳健拟合离群值”报表。

公式列

为每列创建新的公式列,以便将离群值设置为缺失。新列以用户指定的名称作为前缀或后缀,以区别于原始列。默认情况下,后缀设置为“已剔除”。

公式脚本

创建一个添加到数据表的脚本。脚本运行时会为每列创建新的公式列,以便将离群值设置为缺失。新列以用户指定的名称作为前缀或后缀,以区别于原始列。默认情况下,后缀设置为“已剔除”。

按单元格选择离群值

“稳健拟合离群值”报表中的“按单元格选择离群值”选项卡包含一个表,其中包含由控件指定的设置发现的单个离群值。该表显示列名、行号、离群值距离和单个离群值的实际值。离群值距离是用来衡量离群值极端程度的测度,使用以下等式计算:

离群值距离 = Equation shown here

其中

x = 离群值的实际值

c = 包含离群值的列的中心,用指定的离群值方法(Huber、Cauchy 或四分位数)来测量

s = 包含离群值的列的散度,用指定的离群值方法(Huber、Cauchy 或四分位数)来测量

离群值距离越大表示离群值越极端。

当在离群值表中选定一行或多行时,“按单元格选择离群值”选项卡包含以下可应用的选项:

标识表中离群值

对离群值汇总表中选定行的原始数据表应用操作。

选择行和列

选择与所选离群值对应的行和列。

为单元格着色

为包含离群值的单元格着色。低值离群值着蓝色,高值离群值着红色。

清除表中离群值

对离群值汇总表中选定行的原始数据表应用操作。

添加至缺失值代码

将选定的离群值添加至“缺失值代码”列属性。使用该选项标识数据中已知的缺失值或错误代码。缺失值和错误代码通常是整数,有时是一串 9。点击重新扫描更新“稳健拟合离群值”报表。

注意:若在启动窗口中指定了“依据”变量,则“添加至缺失值代码”不可用于“稳健拟合离群值”。

更改为缺失

将离群值改为数据表中的缺失值。将值改为缺失值时务必要小心。只有在明确数据无效或不准确时才将值改为缺失值。点击重新扫描更新“稳健拟合离群值”报表。

注意:若选定的离群值已添加到缺失值代码中,则该离群值不会更改为缺失值。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).