使用“探索离群值”平台中的“稳健 PCA 离群值”方法可以识别相关多元数据中的离群值单元格。这种方法很有用,因为许多其他多元方法只识别离群值行。在将该方法应用于数据之前,您可以选择先对列进行中心化和统一尺度。尺度因子定义如下:
max [Q(0.75) - Q(0.50), Q(0.50) - Q(0.25)] / [normalQuantile(0.75)]
其中
Q(p) 是第 p 分位数
注意:若 Q(0.75) 或 Q(0.25) 等于中位数,则会使用更极端的分位数,直到有一个非零的范围。
对数据进行中心化和统一尺度后,“稳健 PCA 离群值”方法执行一系列奇异值分解和阈值处理步骤,对数据矩阵进行分解。数据被分解成一个低秩矩阵和一个稀疏的残差矩阵。阈值的处理会使得残差要么非常大(对于离群值),要么非常接近零(对于非离群值)。该算法确定一个适于捕获系统化变异而没有离群值或小噪声的矩阵秩。对于不在低秩空间中的离群值的检测是基于对其残差的检测。请参见 Candes et al (2009) 和 Lin et al (2013)。若有缺失值,则在中心化和统一尺度步骤之后,它们最初将替换为零。然后,在每一次奇异值分解 (SVD) 迭代之后,用来自 SVD 的缺失值的预测值来更新这些缺失值。