发布日期: 11/15/2021

距离测度

“离群值分析”图显示数据表中每个点的指定距离测度。

Mahalanobis 距离测度

Mahalanobis 距离将数据的相关性结构和不同的尺度考虑在内。对于每个值,Mahalanobis 距离都表示为 Mi,它的计算公式如下:

Equation shown here

其中:

Yi 是第 i 行的数据

Equation shown here 是均值行

S 是数据的估计协方差矩阵

“Mahalanobis 距离”图上绘制的上控制限参考线 (Mason and Young, 2002) 计算如下:

UCLMahalanobis = Equation shown here

其中:

n = 观测数

p = 变量(列)数

Equation shown here = Beta Equation shown here 分布的第 (1–α) 分位数

若某个变量是其他变量的精确线性组合,则相关性矩阵是奇异矩阵,并且该变量的行和列将被清零。生成的广义逆仍可用于距离计算。

Jackknife 距离测度

使用均值、标准差和相关性矩阵(不含观测本身)的估计值计算 Jackknife 距离。对于每个值,Jackknife 距离计算如下:

Equation shown here

其中:

n = 观测数

p = 变量(列)数

Mi = 第 i 个观测的 Mahalanobis 距离

“Jackknife 距离”图上绘制的上控制限参考线 (Penny, 1996) 计算如下:

Equation shown here

T2 距离测度

T2 距离是 Mahalanobis 距离的平方,所以 Ti2 = Mi2

T2 距离的上控制限为:

Equation shown here

其中

n = 观测数

p = 变量(列)数

Equation shown here = Beta Equation shown here 分布的第 (1–α) 分位数

多元距离可用于发现多维数据中的离群值。不过,若变量在多元意义上高度相关,那么某个点在多元空间中会被视为离群值,但沿着任意维子集的方向却无异常之处。换言之,若各值相关,沿着一两个轴查看某个点时,该点可能并不值得注意,但因为违反了相关性仍可能为离群值。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).