ここでは、「多変量の相関」プラットフォームの[外れ値分析]のプロットで使用される距離について説明します。
Mahalanobisの距離は、データの相関構造と各変数の分散が考慮されます。各変数のMahalanobisの距離Miは、次のような式で計算されます。
ここで
Yiは、i行目のデータ
は、平均ベクトル
Sは、分散共分散行列
Mahalanobisの距離プロットに表示された上側管理限界の参照線(Mason and Young 2002)は、以下のように計算されます。
UCLMahalanobis =
ここで
n = 標本サイズ
p = 変数(列)の個数
= をパラメータとするベータ分布の(1–a)分位点
ある変数がそれ以外の変数の線形結合になっている場合、相関係数行列は特異になります。その場合、相関係数行列におけるその変数の行と列は計算から除外されます。そのような変数は、Mahalanobisの距離には寄与しません。なお、一般化逆行列を使えば、そのような線形結合がある場合もMahalanobisの距離は計算できます。
ジャックナイフ法による距離は、該当の行を除いて計算したときの平均、標準偏差、相関係数行列を使って計算されます。各変数のジャックナイフ法による距離は、次のように計算されます。
ここで
n = 標本サイズ
p = 変数(列)の個数
Mi = i行目のMahalanobisの距離
ジャックナイフ法による距離プロットに表示された上側管理限界の参照線(Penny, 1996)は、次のように計算されます。
T2は、Mahalanobisの距離を2乗したものです。Ti2 = Mi2で計算されます。
T2の上側管理限界の計算式は次のとおりです。
ここで、
n = 標本サイズ
p = 変数(列)の個数
= をパラメータとするベータ分布の(1–a)分位点
これらの多変量の距離を使うと、多次元における外れ値を見分けることができます。変数の間に強い相関があるときは、1次元や2次元などの部分空間では普通に見える点でも、多変量空間全体では外れ値とみなされることがあります。言い換えれば、値が相関関係にあるときは、1次元や2次元上で見ただけでは外れ値のように見えなくても、相関構造を考慮して多次元で見ると外れ値であることがあります。