预测和专业建模 > 探索离群值 > 启动“探索离群值”平台
发布日期: 09/18/2023

启动“探索离群值”平台

要启动“探索离群值”,请选择分析 > 筛选 > 探索离群值

注意:“探索离群值”命令只分析建模类型为“连续型”的列。可以在启动窗口中输入其他列,但这些列将被忽略。

图 21.5 “探索离群值”平台启动窗口 

Explore Outliers Platform Launch Window

有关“选择列”红色小三角菜单中选项的详细信息,请参见《使用 JMP》中的““列过滤器”菜单”

Y,列

指定要分析的列。

验证

指定用于“稳健 PCA 离群值”的验证列。

标签

指定用标签替换多元分析报表中的行号的列。

依据

一个或多个列,其水平定义不同的分析。对于指定列的每个水平,都使用您已经指定的其他变量分析相应行。结果显示在不同的报表中。若指定了多个“依据”变量,将为“依据”变量水平的每种可能组合生成单独的报表。

提示:要对依据变量的所有水平运行离群值分析,请按 Ctrl 键并点击所需的离群值分析命令按钮。

点击确定后,将显示“探索离群值”报表。该报表包含用于查找一元和多元数据中的离群值的若干方法。在进行选择之前,可以为每个方法指定一些选项。

一元

可通过两个选项来探索一元数据中的离群值。

分位数范围离群值

使用每列的分位数分布将离群值标识为极值。该工具适用于发现数据中的缺失值或错误代码。开始探索数据中的离群值时推荐使用该方法。请参见分位数范围离群值。您可以指定以下选项:

尾分位数

用于计算四分位间距的下分位数的概率。上分位数的概率通过“1 - 尾分位数”计算得出。例如,尾分位数值 0.1 意味着四分位间距介于数据的 0.1 和 0.9 分位数之间。默认值为 0.1。

Q

用于确定离群值阈值的乘数。落在超过“尾分位数”值或“1 - 尾分位数”值的 Q 倍四分位间距之外的值将标识为离群值。比起较小值,较大的 Q 值能提供更为保守的一组离群值。默认值为 3。

稳健拟合离群值

查找每列的中心和散度的稳健估计值,将远离这些值的数据点标识为离群值。请参见稳健拟合离群值。您可以指定以下选项:

K Sigma

一个倍数,用于确定离群值与中心有 K 倍散度的距离。比起较小值,较大的 K 值能提供更为保守的一组离群值。默认值为 4。

Huber

使用 Huber M 估计来估计中心和散度。该选项是默认选项。请参见 Huber and Ronchetti (2009)。

Cauchy

用 Cauchy 分布来计算中心和散度的估计值。Cauchy 估计值具有高度细分的点,通常比 Huber 估计值更为稳健。不过,若数据划分为多个聚类,则 Cauchy 分布往往只考虑聚类得较近的一半数据,而忽略其余数据。

四分位数

使用中位数作为中心测度,四分位间距 (IQR) 除以 1.34898 所得的结果作为散度测度。用因子 1.34898 除以 IQR 生成的散度对应于一个标准差(若为正态分布数据)。

多元

可通过两个选项来探索多元数据中的离群值。

稳健 PCA 离群值

将数据分解为低秩矩阵和残差,并使用残差检测离群值。请参见稳健 PCA 离群值。您可以为 Lambda 指定一个值,并选择数据是否应中心化。对于高级选项,通过按 Shift 键并点击“稳健 PCA 离群值”按钮可访问“稳健 PCA 离群值”选项窗口。

Lambda

指定一个值,该值确定残差矩阵的稀疏性。对于较大的 Lambda 值,残差矩阵较为稀疏。对于具有 n 个训练行和 p 个列的数据表,Lambda 的默认值定义如下:

Equation shown here

最大迭代次数

指定 SVD 的最大迭代次数。默认迭代次数为 100。若在启动中指定的列数超过 20,000,则默认迭代次数为 50。

注意:若算法在最大迭代次数之后没有收敛,则会显示 JMP 警示。您可以继续执行更多的迭代或取消迭代。若点击“取消”并满足较不严格的收敛准则,则会显示结果。若点击“取消”并且未满足较不严格的收敛准则,则会显示另一个 JMP 警示,询问是否接受这些结果。

收敛准则

确定何时停止该算法。基于在启动中指定的列数设置默认收敛准则值。

若列数小于 2000,则默认值为 1e-7。

若列数大于等于 2000,则默认值为 1e-6。

若列数大于等于 20000,则默认值为 1e-5。

较不严格的收敛准则设置为原始收敛准则的 1000 倍。

离群值阈值

指定离群值阈值,用于确定“单元格大残差”表中显示哪些离群值。若统一尺度的残差大于以下值,则显示一个观测:

min[0.99 × max{abs(scaled residuals)}, Outlier Threshold]

默认情况下,“离群值阈值”为 2。若将 2 用作“离群值阈值”导致超过一百万个离群值,则“离群值阈值”将更改为 3。

中心

确定在执行“稳健 PCA 离群值”算法之前是否对数据中心化。

注意:若行数小于等于 10,则不对数据进行中心化。

尺度

确定在执行“稳健 PCA 离群值”算法之前是否对数据统一尺度。

注意:若行数小于等于 10,则不对数据统一尺度。

非常宽问题的随机 SVD

(仅当在启动中指定的列数大于或等于 1000 时才可用。)使用随机化 SVD 方法而不是 Lanczos 方法来分解数据。该选项可加速针对宽数据的“稳健 PCA 离群值”计算。请参见“随机化 SVD”

随机化维度

(仅当在启动中指定的列数大于或等于 1000 时才可用。)指定在“随机化 SVD”中使用的维数。

K 最近邻离群值

将离群值标识为远离其 k 最近邻的值。请参见K 最近邻离群值。您可以指定以下选项:

K

指定要考虑的最远邻居的上限。默认值为 8。

插补缺失值

指定是否插补缺失值。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).