多変量分析 > 判別分析 > 「判別分析」プラットフォームの統計的詳細 > 保存される計算式に関する統計的詳細
公開日: 09/19/2023

保存される計算式に関する統計的詳細

ここでは、「判別分析」の赤い三角ボタンのメニューから[スコアオプション]>[計算式の保存]を選択したときに保存される計算式について説明します。計算式は判別法によって異なります。

カテゴリカル変数Xによって定義される各グループについて、共変量の観測値は、p次元(pは共変量の数)の多変量正規分布に従うと仮定されます。計算式で使用される記号は、Table 5.2のとおりです。

表5.2 [計算式の保存]で保存される計算式の記号

P

共変量の個数

T

グループの総数(Xの水準数)

t = 1, ..., T

Xによって定義されるグループを示す添え字

nt

グループt内の観測数

n = n1 + n2 + ... + nT

観測の総数(全体の標本サイズ)

Y

あるデータ行における共変量のp × 1ベクトル

ここに式を表示

p個の共変量のベクトルで構成される、グループtにおけるi番目の観測値

ここに式を表示

グループtにおける共変量yの平均を示すp × 1ベクトル

ybar

データ全体における共変量の平均を示すp × 1ベクトル

ここに式を表示

グループtにおける群内共分散行列。p × pの行列。

ここに式を表示

プールした群内共分散行列。p × pの行列。

qt

グループtに属する事前確率

p(t|y)

yがグループtに属する事後確率

|A|

行列Aの行列式

線形判別法

線形判別法では、「群内共分散行列はすべてのグループで等しい」と仮定されます。この共通した共分散行列は、Spと推定されます。以下の式で用いている記号については、Table 5.2を参照してください。

観測値yからグループtへのMahalanobisの距離は、次のように定義されます。

ここに式を表示

グループt内にある観測値yの確率密度推定値は、次のように求められます。

ここに式を表示

推定されるパラメータの個数は、プールした共分散行列におけるp(p+1)/2個と、平均ベクトルにおけるTp個です。よって、線形判別分析において推定されるパラメータの総数は、p(p+1)/2 + Tp個です。

グループtに属する事後確率は、次のように表されます。

ここに式を表示

観測値yは、事後確率の値が最も大きいグループに割り当てられます。

線形判別法で保存される計算式は、次のように定義されます。

SqDist[0]

ここに式を表示

SqDist[<group t>]

ここに式を表示

Prob[<group t>]

ここに式を表示

Pred <X>

t = 1, ..., Tに関して、p(t|y)が最大となるようなt

2次判別法

2次判別法では、「グループごとに群内共分散行列が異なる」と仮定されます。グループtにおける群内共分散行列は、Stと推定されます。つまり、推定されるパラメータの個数は、群内共分散行列におけるTp(p+1)/2個と、平均ベクトルにおけるTp個です。よって、2次判別分析において推定されるパラメータの総数は、Tp(p+3)/2個です。

グループの標本サイズがpと比べて小さい場合、群内共分散行列の推定値はかなり不安定になります。そして、判別スコアは、群内共分散行列の逆行列における最小固有値から大きな影響を受けます。Friedman(1989)を参照してください。そのため、グループの標本サイズがpに比べて小さい場合は、正則化判別法で説明されている正則化判別法を用いることを検討してください。

以下の式で用いている記号については、Table 5.2を参照してください。観測値yからグループtへのMahalanobisの距離は、次のように定義されます。

ここに式を表示

グループt内における観測値yの確率密度推定値は、次のように求められます。

ここに式を表示

グループtに属する事後確率は、次のように求められます。

ここに式を表示

観測値yは、事後確率の値が最も大きいグループに割り当てられます。

2次判別法で保存される計算式は、次のように定義されます。

SqDist[<group t>]

ここに式を表示

Prob[<group t>]

ここに式を表示

Pred <X>

t = 1, ..., Tに関して、p(t|y)が最大となるようなt

メモ: SqDist[<group t>]は負になる場合もあります。

正則化判別法

正則化判別法では、λγの2つのパラメータを使用します。

パラメータlは、プールして計算された群内共分散行列と、(グループごとに異なると仮定されて)各グループごとに計算された群内共分散行列との重みのバランスを取ります。

パラメータgは、対角行列への縮小の度合いを決定します。

正則化判別法では、上記した2つの正則化によって、2次判別分析の推定結果を安定させます。Friedman(1989)を参照してください。以下の式で用いている記号については、Table 5.2を参照してください。

正則化判別法の場合、グループtの共分散行列は次のように求められます。

ここに式を表示

観測値yからグループtへのMahalanobisの距離は、次のように定義されます。

ここに式を表示

グループt内における観測値yの確率密度推定値は、次のように求められます。

ここに式を表示

グループtに属する事後確率は、次のように求められます。

ここに式を表示

観測値yは、事後確率の値が最も大きいグループに割り当てられます。

正則化判別法で保存される計算式は、次のように定義されます。

SqDist[<group t>]

ここに式を表示

Prob[<group t>]

ここに式を表示

Pred <X>

t = 1, ..., Tに関して、p(t|y)が最大となるようなt

メモ: SqDist[<group t>]は負になる場合もあります。

横長データに対する線形判別法

[線形 横長データ]オプションによって実行される判別法は、共変量の個数が多い場合、特に、共変量の個数がデータの行数より多い場合(p > n)に役立ちます。この手法では、プールした群内共分散行列Spの逆行列やその転置行列を、p > nの場合に計算負荷がない方式で計算します。特異値分解によって、大規模な共分散行列の逆行列を計算することを回避します。

[線形 横長データ]の判別法では、「すべてのグループにおける群内共分散行列は等しい」と仮定します。データの行数が共変量の個数と等しいかそれ以上の場合、この手法は線形判別法とまったく同じです。

横長データに対する線形判別法の計算式

以下の式で用いている記号については、Table 5.2を参照してください。[線形 横長データ]の判別法は、以下の手順で算出されています。

1. 各グループの標本平均を要素とした、T × p行列Mを計算します。Mの(t,j)番目の要素mtjは、グループtにおける、j番目の共変量の標本平均です。

2. 各共変量jについて、グループ全体のプールした標準偏差を計算します。これを、sjjとします。

3. 対角要素sjjを持つ対角行列をSdiagとします。

4. 各共変量の値を、次のようにして中心化および尺度化します。

データ行が属するグループの平均を引きます。

その差を、プールした標準偏差で割ります。

これを式で表すと、グループtに属するデータ行iの、j番目の共変量を標準化した値は、次式のようになります。

ここに式を表示

この式で、t(i)は、データ行iが属するグループtを示します。

5. ここに式を表示を要素とする行列をYsとします。

6. グループで標準化した共変量から計算された、プールした群内共分散行列をRとします。この行列Rは、次のように表せます。

ここに式を表示

7. Ysを特異値分解します。

ここに式を表示

ここで、UVの各ベクトルは、正規直交しています。また、Dは、対角要素が正の特異値となっている対角行列です。特異値分解を参照してください。

Rは次のように表せます。

ここに式を表示

8. Rがフルランクの場合には、R-1/2は次のように表せます。

ここに式を表示

この式で、D-1は、Dの対角要素の逆数を対角要素にもつ対角行列です。

Rがフルランクではない場合、Rの疑似逆行列は次のように定義されます。

ここに式を表示

これにより、Rの平方根の逆数に相当する行列を、次のように定義します。

ここに式を表示

9. R がフルランクの場合には、R- = R-1 です。そこで、行列がフルランクでない場合でも距離が計算できるように、常に疑似逆行列を使用します。

ここでp × pの行列Tsを次のように定義します。

ここに式を表示

このとき、次のような式が成立します。

ここに式を表示

この式で、S-pは、元データのプールされた群内共分散行列の一般化逆行列です。これは上式により、特異値分解で計算されます。

Mahalanobisの距離

Mahalanobisの距離、確率密度推定値、および、事後確率の計算式は、線形判別法と同じです。ただし、Spの逆行列には、特異値分解によって算出された一般化逆行列が使われます。

計算式を保存すると、Mahalanobisの距離は分解によって求められます。観測値yのグループtまでの距離は、次のようにして求められます。最後の等式におけるSqDist[0]とDiscrim Prin Comp(「判別主成分」)は、保存される計算式で定義されているものです。

ここに式を表示

保存される計算式

[線形 横長データ]オプションの判別分析で保存される計算式は、次のとおりです。

判別データ行列

共変量のベクトル

判別主成分

主成分スコアを求める行列によって変換されたデータ。このデータは、グループ内で相関していないデータになります。ここに式を表示によって求められます。この式で、ここに式を表示は、全体平均を表すp × 1ベクトルです。

SqDist[0]

ここに式を表示

SqDist[<group t>]

データ行からグループの重心までのMahalanobisの距離。Mahalanobisの距離を参照してください。

Prob[<group t>]

ここに式を表示線形判別法を参照してください。

Pred <X>

t = 1, ..., Tに関して、p(t|y)が最大となるようなt

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).