距離の指標

多変量分析 > 多変量の相関 > 計算方法と統計的詳細 > 距離の指標

公開日: 04/01/2021

距離の指標

外れ値のプロットには、各点からの距離が表示されます。

Mahalanobis距離の計算

Mahalanobisの距離は、データの相関構造と各変数の分散が考慮されます。各変数のMahalanobisの距離Miは、次のような式で計算されます。

Equation shown here

ここで

Yiは、i行目のデータ

Equation shown here は、平均ベクトル

Sは、分散共分散行列

Mahalanobisの距離プロットに表示された上側管理限界の参照線（Mason and Young 2002）は、以下のように計算されます。

UCLMahalanobis = Equation shown here

ここで

n = 標本サイズ

p = 変数（列）の個数

Equation shown here = をパラメータとするベータ分布の（1–a）分位点

ある変数がそれ以外の変数の線形結合になっている場合、相関行列は特異行列になります。その場合、相関行列におけるその変数の行と列は計算から除外されます。そのような変数は、Mahalanobisの距離には寄与しません。一般化逆行列を使えば、線形結合がある場合もMahalanobisの距離は計算できます。

ジャックナイフ法による距離の計算

ジャックナイフ法による距離は、該当の行を除いて計算したときの平均、標準偏差、相関係数行列を使って計算されます。各変数のジャックナイフ法による距離は、次のように計算されます。

Equation shown here

ここで

n = 標本サイズ

p = 変数（列）の個数

Mi = i行目のMahalanobisの距離

ジャックナイフ法による距離プロットに表示された上側管理限界の参照線（Penny, 1996）は、次のように計算されます。

Equation shown here

T2距離の計算

T2は、Mahalanobisの距離を2乗したものです。Ti2 = Mi2で計算されます。

T2の上側管理限界の計算式は次のとおりです。

Equation shown here

ここで

n = 標本サイズ

p = 変数（列）の個数

Equation shown here = をパラメータとするベータ分布の（1–a）分位点

これらの多変量の距離を使うと、多次元における外れ値を見分けることができます。変数の間に強い相関があるときは、1次元や2次元などの部分空間では普通に見える点でも、多変量空間全体では外れ値とみなされることがあります。言い換えれば、値が相関関係にあるときは、1次元や2次元上で見ただけでは外れ値のように見えなくても、相関構造を考慮して多次元で見ると外れ値であることがあります。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).