距離の統計的詳細

多変量分析 > 多変量の相関 > 「多変量の相関」プラットフォームの統計的詳細 > 距離の統計的詳細

公開日: 09/19/2023

距離の統計的詳細

ここでは、「多変量の相関」プラットフォームの［外れ値分析］のプロットで使用される距離について説明します。

Mahalanobis距離の計算

Mahalanobisの距離は、データの相関構造と各変数の分散が考慮されます。各変数のMahalanobisの距離Miは、次のような式で計算されます。

ここに式を表示

ここで

Yiは、i行目のデータ

ここに式を表示は、平均ベクトル

Sは、分散共分散行列

Mahalanobisの距離プロットに表示された上側管理限界の参照線（Mason and Young 2002）は、以下のように計算されます。

UCLMahalanobis = ここに式を表示

ここで

n = 標本サイズ

p = 変数（列）の個数

ここに式を表示 = をパラメータとするベータ分布の（1–a）分位点

ある変数がそれ以外の変数の線形結合になっている場合、相関係数行列は特異になります。その場合、相関係数行列におけるその変数の行と列は計算から除外されます。そのような変数は、Mahalanobisの距離には寄与しません。なお、一般化逆行列を使えば、そのような線形結合がある場合もMahalanobisの距離は計算できます。

ジャックナイフ法による距離の計算

ジャックナイフ法による距離は、該当の行を除いて計算したときの平均、標準偏差、相関係数行列を使って計算されます。各変数のジャックナイフ法による距離は、次のように計算されます。

ここに式を表示

ここで

n = 標本サイズ

p = 変数（列）の個数

Mi = i行目のMahalanobisの距離

ジャックナイフ法による距離プロットに表示された上側管理限界の参照線（Penny, 1996）は、次のように計算されます。

ここに式を表示

T2距離の計算

T2は、Mahalanobisの距離を2乗したものです。Ti2 = Mi2で計算されます。

T2の上側管理限界の計算式は次のとおりです。

ここに式を表示

ここで、

n = 標本サイズ

p = 変数（列）の個数

ここに式を表示 = をパラメータとするベータ分布の（1–a）分位点

これらの多変量の距離を使うと、多次元における外れ値を見分けることができます。変数の間に強い相関があるときは、1次元や2次元などの部分空間では普通に見える点でも、多変量空間全体では外れ値とみなされることがあります。言い換えれば、値が相関関係にあるときは、1次元や2次元上で見ただけでは外れ値のように見えなくても、相関構造を考慮して多次元で見ると外れ値であることがあります。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).