您可以使用“稳健 PCA 离群值”实用工具快速识别相关多元数据中的离群值单元格。这种方法很有用,因为许多其他多元方法只识别离群值行。在将该方法应用于数据之前,首先对列进行中心化(可选)和统一尺度。尺度因子定义如下:
max [Q(.75) - Q(.50), Q(.50) - Q(.25)] / [正态分位数(0.75)]
其中
Q(p) 是第 p 分位数
注意:若 Q(75) 或 Q(25) 等于中位数,则会使用更极端的分位数,直到有一个非零的范围。
对数据进行中心化和统一尺度后,“稳健 PCA 离群值”实用工具执行一系列奇异值分解和阈值处理步骤,对数据矩阵进行分解。数据被分解成一个低秩矩阵和一个稀疏的残差矩阵。阈值的处理会使得残差要么非常大(对于离群值),要么非常接近零(对于非离群值)。该算法确定一个适于捕获系统化变异而没有离群值或小噪声的矩阵秩。对于不在低秩空间中的离群值的检测是基于对其残差的检测。请参见 Candes et al (2009) 和 Lin et al (2013)。若有缺失值,则在中心化和统一尺度步骤之后,它们最初将替换为零。然后,在每一次奇异值分解 (SVD) 迭代之后,用来自 SVD 的缺失值的预测值来更新这些缺失值。
从命令列表中选择“稳健 PCA 离群值”后,您必须指定 Lambda 的值并且选择是否应对数据进行中心化。若在按 Shift 键的同时点击“稳健 PCA 离群值”按钮,则同时提供以下选项:
Lambda
指定一个值,该值确定残差矩阵的稀疏性。对于较大的 Lambda 值,残差矩阵较为稀疏。对于具有 n 个训练行和 p 个列的数据表,Lambda 的默认值定义如下:
最大迭代次数
指定 SVD 的最大迭代次数。
收敛准则
确定何时停止该算法。
离群值阈值
指定离群值阈值,用于确定“单元格大残差”表中显示哪些离群值。若统一尺度的残差大于以下值,则显示一个观测:
min[0.99 × max{abs(残差)}, 离群值阈值]
默认情况下,“离群值阈值”为 2。
中心
确定在执行“稳健 PCA 离群值”算法之前是否对数据中心化。
注意:若行数小于等于 10,则不对数据进行中心化。
尺度
确定在执行“稳健 PCA 离群值”算法之前是否对数据统一尺度。
注意:若行数小于等于 10,则不对数据统一尺度。
“稳健 PCA 离群值”报表包含一个表,其中包含关于该方法的信息。该表包括低秩矩阵的秩、SVD 迭代次数、收敛准则、Lambda 值和插补缺失值的数量。该报表还包含以下表和报表:
单元格大残差
显示最大离群值单元格的表。显示的单元格数量取决于“离群值阈值”。该表包含单元格的列名和行号、残差值和统一尺度的残差值。
提示:要对数据表中的特定离群值单元格着色,请选择“单元格大残差”表中的行并点击着色。
均方根行
显示数据表中每行的均方根值的表。使用统一尺度的残差计算均方根。
提示:若在“均方根行”表中选择了某行,在数据表中会选定相应的行。
均方根列
显示启动窗口中指定的每列的均方根值的表。使用统一尺度的残差计算均方根。
提示:若在“均方根列”表中选择某行,然后点击选择列,则会在数据表中选定相应的列。
快照
数据表中离群值单元格的图形表示。离群值单元格着红色。
残差
矩阵分解后的残差矩阵。若统一尺度残差的绝对值大于以下值,则会对单元格着色:
min[0.99 × max{abs(残差)}, 离群值阈值]
低秩近似
矩阵分解后的统一尺度残差矩阵。
奇异值
来自 SVD 的奇异值向量。
“稳健 PCA 离群值”报表底部有一些按钮,提供保存报表不同部分的选项。
关闭
关闭“稳健 PCA 离群值”报表。
保存大离群值
将“单元格大残差”表中的信息保存到新的数据表中。
保存已清除
打开一个窗口,其中提供了几种方法,可以根据阈值清除离群值并将新列保存到数据表中。
切尾
若相应的绝对统一尺度残差大于指定阈值,则去除离群值单元格。默认情况下,阈值为 10。选择“颜色” 为离群值单元格着红色。去除的单元格设置为未统一尺度的阈值。
插补
若相应绝对统一尺度残差大于指定阈值,则将离群值单元格设置为低秩近似的值。默认情况下,阈值为 100。选择“颜色” 为这些单元格着绿色。
生成缺失值
若相应的绝对统一尺度残差大于指定阈值,则将离群值单元格设置为缺失。默认情况下,阈值为 1000。选择“颜色” 为这些单元格着蓝色。
对缺失值插补着色
若选定,则为最初缺失值并被插补的单元格着色。
保存残差
将残差保存至原始数据表中的新列。
保存统一尺度的残差
将统一尺度的残差保存至原始数据表中的新列。
保存低秩近似
将低秩近似保存至原始数据表中的新列。