您有兴趣探索数据中的缺失值,并在适当时插补这些值。首先探索数据中的缺失值,然后为具有连续建模类型的列插补值。
1. 选择帮助 > 样本数据文件夹,然后打开 Arrhythmia.jmp。
2. 选择分析 > 筛选 > 探索缺失值。
3. 选择所有列(共计 280 个)并点击 Y,列。
4. 点击确定。选中仅显示带缺失值的列复选框。
图 22.2 “缺失值”报表
图 22.2 中所示的“缺失列”报表指示只有五列有缺失数据。在总共 452 行中,列 J 有 376 个缺失值。因为它缺失大量,插补值可能不会生成有意义的分析。对于此类数据,您可以在支持“信息性缺失”选项的平台中使用列 J 的“信息性缺失”选项来探索模型。
包含缺失值的五列是连续列。您继续使用针对数据表中的连续列的多元插补来插补除列 J 外的四列的值。通过这样操作,您默认假定:值缺失的概率仅依赖于连续变量的值而不依赖于排除的名义型变量的值。要执行这个新分析,您需要再次启动“探索缺失值”平台。
1. 选择分析 > 筛选 > 探索缺失值。
2. 在启动窗口中,点击 280 列旁边的红色小三角。
使用列过滤器菜单仅查看“选择列”列表中建模类型为“连续型”的列。
3. 选择建模类型 > 全部取消选中。
这将从“选择列”列表中删除所有列。
4. 选择建模类型 > 连续型。
“选择列”列表现在仅包含 207 个“连续”列。
5. 选择全部 207 列。然后在按住 Ctrl 键的同时点击 J 列(将其取消选定),然后点击 Y,列。
6. 点击确定。
7. 点击多元正态插补。
随即显示一个窗口,询问您是否要对协方差使用收缩估计量。
8. 点击是,收缩。
随即显示一条 JMP 警示,提醒您应该使用另存为命令保留原始数据。
9. 点击确定。
图 22.3 插补报表
“插补报表”指示插补了多少缺失值以及具体的插补详细信息。曾经包含缺失值的四列中不再留有任何缺失数据。