“探索缺失值”平台提供若干方法来帮助您标识和了解数据中的缺失值。
• 多元正态插补
• 自动数据插补
“探索缺失值”平台中的“多元正态插补”方法基于多元正态分布插补缺失值。该过程要求所有变量的建模类型都为“连续型”。该算法使用最小二乘插补。使用配对协方差构造协方差矩阵。使用每个变量的所有非缺失值计算对角线元素(方差)。使用任意两个变量均无缺失的所有观测计算这两个变量的非对角线元素。对于协方差矩阵奇异的情况,算法使用基于 Moore-Penrose 伪逆矩阵的最小范数最小二乘插补。
多元正态插补允许选择对协方差使用收缩估计量。使用收缩估计量是改善协方差矩阵的估计的一种方法。有关收缩估计量的详细信息,请参见 Schafer and Strimmer (2005)。
注意:若指定了验证列,则使用来自训练集的观测计算协方差矩阵。
“探索缺失值”平台中的“多元 SVD 插补”方法使用奇异值分解 (SVD) 来插补缺失值。该方法适用于有数以百计或数以千计变量的数据。由于 SVD 计算不要求计算协方差矩阵,所以推荐对包含大量变量的广泛问题使用 SVD 方法。该过程要求所有变量的建模类型都为“连续型”。
奇异值分解将观测矩阵 X 表示为 X = UDV′,其中,U 和 V 是正交矩阵,D 是对角矩阵。
“多元 SVD 插补”方法中使用的 SVD 算法是稀疏 Lanczos 方法,亦称隐式重新启动的 Lanczos 双对角化方法 (IRLBA)。请参见 Baglama and Reichel (2005)。“多元 SVD 插补”算法执行以下操作:
1. 每个缺失值都用其列均值替代。
2. 针对观测矩阵 X 执行 SVD 分解。
3. 包含缺失值的每个单元格都替换为从 SVD 分解获得的 UDV′ 矩阵的相应元素。
4. 重复执行步骤 2 和 3,直到 SVD 收敛到矩阵 X 或达到最大迭代次数。
“探索缺失值”平台中的“多元稳健 PCA 方法”使用稳健主成分插补缺失值,该方法使用对离群值稳健的低秩矩阵分解 (SVD) 来替换缺失值。这与“探索离群值”平台的“稳健 PCA 离群值”方法中使用的方法相同。请参见“稳健 PCA 离群值”。该方法适用于广泛的问题,但对于非常大的维度,有时计算成本很高。
“探索缺失值”平台中的“自动数据插补”(ADI) 方法使用低秩矩阵近似方法(亦称矩阵完成)插补缺失值。经过训练后,ADI 模型能够通过得分公式对流数据执行缺失数据插补。流数据是随着时间变得可用而添加的观测行,并不用于优化或验证插补的模型。该方法灵活稳健,可以为低秩近似自动选择最佳维。这些功能使得 ADI 能够很好地适用于许多不同类型的数据集。
矩阵的低秩近似采用 X = UDV′ 的形式,可视为奇异值分解 (SVD) 的扩展。ADI 将 Soft-Impute 方法用作插补模型,而且经过专门设计,使得数据能够确定低秩近似的秩。
ADI 算法执行以下步骤:
1. 数据划分到各个训练集和验证集中。
2. 每个集都使用训练集中的观测值进行中心化和统一尺度。
3. 对于每个划分的数据集,在每列中添加其他缺失值,这些值被称为引入的缺失 (IM) 值。
4. 针对训练数据集沿着调节参数的解路径拟合插补模型。IM 值用于确定调节参数的最佳值。
5. 使用训练数据集通过消除第 4 步中所选插补模型的结果的偏倚来执行其他秩缩减。
6. 执行最终秩缩减以校准流数据模型,以防过度拟合。这需要将第 5 步中确定的秩用作上限,针对验证集拟合插补模型。
若该算法无法找到低秩近似,则为连续变量插补均值,为分类变量插补众数。这些值从训练集计算得出。