图 3.13 Arrhythmia.jmp 中连续变量的缺失值报表
•
|
•
|
•
|
•
|
多元正态插补(若在启动窗口中输入了建模类型为“名义型”或“有序型”的“数值”列则不可用。)
|
•
|
多元 SVD 插补(若在启动窗口中输入了建模类型为“名义型”或“有序型”的“数值”列则不可用。)
|
•
|
自动数据插补(若在启动窗口中输入了建模类型为“名义型”或“有序型”的“数值”列则不可用。)
|
•
|
点击撤销可撤销插补,用缺失值替换插补的数据。
“多元 SVD 插补”实用工具中默认使用的 SVD 算法是稀疏 Lanczos 方法,亦称隐式重新启动的 Lanczos 双对角化方法 (IRLBA)。请参见 Baglama and Reichel (2005)。该算法执行以下计算:
2.
|
针对观测矩阵 X 执行 SVD 分解。
|
3.
|
包含缺失值的每个单元格都替换为从 SVD 分解获得的 UDV‘ 矩阵的相应元素。
|
•
|
•
|
点击撤销可撤销插补,用缺失值替换插补的数据。
5.
|
使用训练数据集通过消除第 4 步中所选插补模型的结果的偏倚来执行其他秩缩减。
|
6.
|
执行最终秩缩减以校准流数据模型,以防过度拟合。这需要将第 5 步中确定的秩用作上限,针对验证集拟合插补模型。
|
图 3.14 ADI 控件
将名为 Imputed_ 的列组保存至包含在启动窗口中指定的插补列的当前数据表。隐藏列 ADI 插补列也会添加至包含数据插补中使用的插补向量和得分公式的当前数据表。若向数据表添加任何其他行,列公式会自动更新,从而支持对流数据进行缺失数据插补。这是默认选项。