比起非稳健估计值,参数的稳健估计值对于离群值较不敏感。“稳健拟合离群值”提供若干类型的数据中心和散度稳健估计值,用于确定可被视为极值的那些值。
图 20.7 “稳健拟合离群值”窗口
在给定中心和散度稳健估计值的前提下,离群值定义为与中心有 K 倍稳健散度的距离的那些值。“稳健拟合离群值”窗口提供若干选项,用于计算稳健估计值和倍数 K,并提供用于管理发现的离群值的工具。
Huber
使用 Huber M 估计来估计中心和散度。该选项是默认选项。请参见 Huber and Ronchetti (2009)。
Cauchy
用 Cauchy 分布来计算中心和散度的估计值。Cauchy 估计值提供高度细分的点,通常比 Huber 估计值更为稳健。不过,若数据划分为聚类,则 Cauchy 分布往往只考虑构成较近聚类的一半数据,而忽略其余数据。
四分位数
使用四分位间距 (IQR) 估计散度。中心的估计值为中位数。散度估计值是 IQR 除以 1.34898 后的结果。用该因子除以 IQR 可令散度对应于一个标准差(若为正态分布数据)。
K
一个倍数,用于确定离群值与中心有 K 倍散度的距离。比起较小值,较大的 K 值能提供更为保守的一组离群值。默认值为 4。
仅显示具有离群值的列
将报表中的列列表限定为仅包含离群值的那些列。
一旦使用您的指定显示报表,即可通过许多方法来探索这些极值。您可以通过选择“稳健估计值和离群值”报表中的指定行来选择行中的离群值。
选择行
选择包含数据表中选定列的离群值的行。
排除行
为数据表中选定列的离群值设置“排除行”状态。点击重新扫描以更新“稳健估计值和离群值”报表。
为单元格着色
对数据表中选定的离群值的单元格着色。
为行着色
为包含数据表中选定列的离群值的行着色。
添加至缺失值代码
针对选定列,将选定的离群值添加至“缺失值代码”列属性。使用该选项标识数据中已知的缺失值或错误代码。点击重新扫描以更新“稳健估计值和离群值”报表。
注意:若在启动窗口中指定了“依据”变量,则“添加至缺失值代码”不可用于“稳健拟合离群值”。
更改为缺失
将离群值改为数据表中的缺失值。点击重新扫描以更新“稳健估计值和离群值”报表。
重新扫描
在执行离群值操作之后重新扫描数据。
注意:按住 Ctrl 键并点击重新扫描以重新扫描所有命令组。
关闭
关闭“稳健拟合离群值”面板。
注意:按住 Ctrl 键并点击关闭以关闭所有命令窗口。