“离群值分析”图显示数据表中每个点的指定距离测度。
Mahalanobis 距离将数据的相关性结构和不同的尺度考虑在内。对于每个值,Mahalanobis 距离都表示为 Mi,它的计算公式如下:
其中:
Yi 是第 i 行的数据
是均值行
S 是数据的估计协方差矩阵
“Mahalanobis 距离”图上绘制的上控制限参考线 (Mason and Young, 2002) 计算如下:
UCLMahalanobis =
其中:
n = 观测数
p = 变量(列)数
= Beta 分布的第 (1–α) 分位数
若某个变量是其他变量的精确线性组合,则相关性矩阵是奇异矩阵,并且该变量的行和列将被清零。生成的广义逆仍可用于距离计算。
使用均值、标准差和相关性矩阵(不含观测本身)的估计值计算 Jackknife 距离。对于每个值,Jackknife 距离计算如下:
其中:
n = 观测数
p = 变量(列)数
Mi = 第 i 个观测的 Mahalanobis 距离
“Jackknife 距离”图上绘制的上控制限参考线 (Penny, 1996) 计算如下:
T2 距离是 Mahalanobis 距离的平方,所以 Ti2 = Mi2。
T2 距离的上控制限为:
其中
n = 观测数
p = 变量(列)数
= Beta 分布的第 (1–α) 分位数
多元距离可用于发现多维数据中的离群值。不过,若变量在多元意义上高度相关,那么某个点在多元空间中会被视为离群值,但沿着任意维子集的方向却无异常之处。换言之,若各值相关,沿着一两个轴查看某个点时,该点可能并不值得注意,但因为违反了相关性仍可能为离群值。