预测和专业建模 > 探索缺失值 > “探索缺失值”报表
发布日期: 09/18/2023

“探索缺失值”报表

“探索缺失值”报表包含一个”命令“部分、一个“缺失列”报表以及一个“插补”报表(一旦选定某种插补方法)。“命令”部分包含用于其他报表和插补方法的若干选项。

命令

插补报表

命令

“缺失值”报表

显示“缺失列”报表,其中列出每列的名称和该列中缺失值的个数。“缺失列”报表还包含以下选项:

仅显示带缺失值的列

从列表中删除不含缺失值的列。

关闭

关闭“缺失列”报表。

选择行

选择数据表中的特定行,这些行包含您在“缺失列”报表中选择的一个或多个列的缺失值。

排除行

针对数据表中的特定行应用排除行状态,这些行包含您在“缺失列”报表中选择的列的缺失值。

为单元格着色

为数据表中的特定单元格着色,这些单元格包含您在“缺失列”报表中选择的列的缺失值。

为行着色

为数据表中的特定行着色,这些行包含您在“缺失列”报表中选择的一个或多个列的缺失值。

要删除“缺失列”报表,请点击“关闭”按钮。

缺失值聚类

提供对缺失数据的层次聚类分析。报表中包含一个图和两个系统树图。图的各行通过缺失数据模式来定义;每个模式对应一行。列对应变量。每个红色方格都指示图下方所列的列的一组缺失值。悬停在方格上方可查看所代表的值的列表。在图中点击可选择缺失数据模式行。显示垂直直条以指示选定的模式。

图右侧的树状图显示缺失数据模式行的聚类。这些是您通过使用“表”>“缺失数据模式”得到的行。

图下方的树状图显示变量聚类。

使用该报表可确定特定列组是否倾向于具有相似的缺失值模式。要删除“缺失值聚类”报表,请点击“关闭”按钮。

缺失值快照

显示缺失值的方格图。列表示变量。黑色方格指示缺失值。该图对于理解纵向数据的缺失尤其有用;其中对象可能在数据收集期结束之前退出研究。要删除“缺失值快照”报表,请点击“关闭”按钮。

多元正态插补

使用来自非缺失列的最小二乘预测值插补缺失值。使用收缩选项改善协方差矩阵的估计。

警告:在有数以百计的列时避免使用该方法。

多元 SVD 插补

对于较大的问题,使用迭代低秩 SVD 矩阵完成方法来快速插补缺失值。点击“多元 SVD 插补”后,“插补方法”窗口即显示推荐的设置,可对该设置进行调整。

奇异向量数

在插补中计算和使用的奇异向量数。

注意:一定注意:不要指定过多的奇异向量,否则 SVD 和插补不会在各次迭代之间改变。

最多迭代次数

插补缺失值时使用的迭代次数。

显示迭代日志

打开一个“详细信息”报表,其中显示迭代次数并提供关于准则的详细信息。

对于较大的问题,进度条会显示 SVD 完成了多少个维。您可以停止插补并随时使用该维数。

多元 RPCA 插补

使用稳健主成分插补缺失值,该方法使用对离群值稳健的低秩矩阵分解 (SVD) 来替换缺失值。

提示:该方法适用于广泛的问题。

自动数据插补

使用低秩矩阵近似方法插补缺失值。该方法基于数据自动选择低秩近似的最佳维度。选择该方法之前,您可以指定用于保存插补值和其他高级控件的选项。

新建数据表

创建与原始数据表具有相同维的新数据表。在新数据表中,启动窗口中的选定列包含插补值。

将得分公式保存至当前数据表

将名为插补_ 的列组保存至包含在启动窗口中指定的插补列的当前数据表。一隐藏列,ADI 插补列,也会添加至包含数据插补中使用的插补向量和得分公式的当前数据表。若向数据表添加任何其他行,列公式会自动更新,从而支持对流数据进行缺失数据插补。这是默认选项。

原位插补值

在当前数据表中插补缺失值。插补值显示为浅蓝色。

包括信息性缺失列

(仅在选定“将得分公式保存至当前数据表”时才可用。)为启动中指定的每个插补列向插补_ 列组添加一个附加的指示符列。该列指定对于每个插补的 Y 列,每行是否缺失。

维上限

确定低秩近似中允许的最大秩。默认值由所选列构成的矩阵的维确定。

最多迭代次数

确定要迭代的值的个数,以确定插补模型的调节参数。默认值为 10。

引入为缺失值的观测比例

确定添加到训练集和验证集的 IM 值的比例。每个集的默认比例为 0.2。

用于验证的行比例

确定在训练集和验证集中使用的行的比例。验证集的默认比例为 0.3。

设置随机种子

确定 ADI 的随机种子。使用该选项获取可重现的结果。

提示:要对依据变量的所有水平运行缺失值命令,请按 Ctrl 键并点击所需的命令按钮。

插补报表

若选择了其中一种插补方法,则“探索缺失值”报表窗口中还会包含一个“插补报表”。插补报表解释选定的插补过程的结果。根据所选的方法包含以下结果:

替换的缺失值的个数。

所选插补方法,以及特定于所选方法的任何详细信息。

受影响的行列数。

(仅用于“多元正态插补”。)找到的不同缺失值模式的数量。

数据表中插补值的颜色。

(仅用于“多元 RPCA 插补”。)“详细信息”报表显示迭代次数、矩阵的秩、收敛准则的值,以及最大绝对统一尺度残差的值。

一旦完成插补,与数据表中的插补值对应的方格就会着色。若“缺失列”报表处于打开状态,则该报表将更新以显示没有缺失值。

点击撤销可撤销插补,用缺失值替换插补的数据。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).