发布日期: 11/15/2021

稳健拟合离群值

比起非稳健估计值,参数的稳健估计值对于离群值较不敏感。“稳健拟合离群值”提供您数据的中心和散度稳健估计值的若干类型,以确定用于标识离群值的阈值。

图 21.7 “稳健拟合离群值”窗口 

Image shown here

“稳健拟合离群值”选项

在给定中心和散度稳健估计值的前提下,离群值定义为与中心有 K 倍稳健散度的距离的那些值。“稳健拟合离群值”窗口提供若干选项,用于计算稳健估计值和倍数 K,并提供用于管理发现的离群值的工具。

Huber

使用 Huber M 估计来估计中心和散度。该选项是默认选项。请参见 Huber and Ronchetti (2009)。

Cauchy

用 Cauchy 分布来计算中心和散度的估计值。Cauchy 估计值提供高度细分的点,通常比 Huber 估计值更为稳健。不过,若数据划分为聚类,则 Cauchy 分布往往只考虑构成较近聚类的一半数据,而忽略其余数据。

四分位数

使用四分位间距 (IQR) 估计散度。中心的估计值为中位数。散度估计值是 IQR 除以 1.34898 后的结果。用该因子除以 IQR 可令散度对应于一个标准差(若为正态分布数据)。

K

一个倍数,用于确定离群值与中心有 K 倍散度的距离。比起较小值,较大的 K 值能提供更为保守的一组离群值。默认值为 4。

仅显示带离群值的列

将报表中的列列表限定为仅包含离群值的那些列。

一旦使用您的指定显示报表,即可通过许多方法来探索这些极值。您可以通过选择“稳健估计值和离群值”报表中的指定行来选择行中的离群值。

提示:若在报表中未选择任何列,并且您点击以下按钮之一,则会显示一条“JMP 警示”,支持您选择所有列。

选择行

选择包含数据表中选定列的离群值的行。

排除行

为数据表中选定列的离群值设置“排除行”状态。点击重新扫描以更新“稳健估计值和离群值”报表。

为单元格着色

对数据表中选定的离群值的单元格着色。

为行着色

为包含数据表中选定列的离群值的行着色。

添加至缺失值代码

针对选定列,将选定的离群值添加至“缺失值代码”列属性。使用该选项标识数据中已知的缺失值或错误代码。点击重新扫描以更新“稳健估计值和离群值”报表。

注意:若在启动窗口中指定了“依据”变量,则“添加至缺失值代码”不可用于“稳健拟合离群值”。

更改为缺失

将离群值改为数据表中的缺失值。点击重新扫描以更新“稳健估计值和离群值”报表。

公式列

为启动窗口中指定的每列创建新的公式列。若原始列的值位于离群值限值内,则每个新列都包含原始列的值,否则设置为缺失。新列以用户指定的名称作为前缀或后缀,以区别于原始列。默认情况下,后缀设置为“已剔除”。

公式脚本

创建一个添加到数据表的脚本。运行该脚本时,为启动窗口中指定的每列创建新的公式列。若原始列的值位于离群值限值内,则每个新列都包含原始列的值,否则设置为缺失。新列以用户指定的名称作为前缀或后缀,以区别于原始列。默认情况下,后缀设置为“已剔除”。

重新扫描

在执行离群值操作之后重新扫描数据。

注意:按 Ctrl 键并点击重新扫描将重新扫描所有命令组。

关闭

关闭“稳健拟合离群值”面板。

注意:按 Ctrl 键并点击关闭可关闭所有命令窗口。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).