ここでは、「判別分析」の赤い三角ボタンのメニューから[スコアオプション]>[計算式の保存]を選択したときに保存される計算式について説明します。計算式は判別法によって異なります。
カテゴリカル変数Xによって定義される各グループについて、共変量の観測値は、p次元(pは共変量の数)の多変量正規分布に従うと仮定されます。計算式で使用される記号は、Table 5.2のとおりです。
P |
共変量の個数 |
T |
グループの総数(Xの水準数) |
t = 1, ..., T |
Xによって定義されるグループを示す添え字 |
nt |
グループt内の観測数 |
n = n1 + n2 + ... + nT |
観測の総数(全体の標本サイズ) |
Y |
あるデータ行における共変量のp × 1ベクトル |
p個の共変量のベクトルで構成される、グループtにおけるi番目の観測値 |
|
グループtにおける共変量yの平均を示すp × 1ベクトル |
|
ybar |
データ全体における共変量の平均を示すp × 1ベクトル |
グループtにおける群内共分散行列。p × pの行列。 |
|
プールした群内共分散行列。p × pの行列。 |
|
qt |
グループtに属する事前確率 |
p(t|y) |
yがグループtに属する事後確率 |
|A| |
行列Aの行列式 |
線形判別法では、「群内共分散行列はすべてのグループで等しい」と仮定されます。この共通した共分散行列は、Spと推定されます。以下の式で用いている記号については、Table 5.2を参照してください。
観測値yからグループtへのMahalanobisの距離は、次のように定義されます。
グループt内にある観測値yの確率密度推定値は、次のように求められます。
推定されるパラメータの個数は、プールした共分散行列におけるp(p+1)/2個と、平均ベクトルにおけるTp個です。よって、線形判別分析において推定されるパラメータの総数は、p(p+1)/2 + Tp個です。
グループtに属する事後確率は、次のように表されます。
観測値yは、事後確率の値が最も大きいグループに割り当てられます。
線形判別法で保存される計算式は、次のように定義されます。
SqDist[0] |
|
SqDist[<group t>] |
|
Prob[<group t>] |
|
Pred <X> |
t = 1, ..., Tに関して、p(t|y)が最大となるようなt |
2次判別法では、「グループごとに群内共分散行列が異なる」と仮定されます。グループtにおける群内共分散行列は、Stと推定されます。つまり、推定されるパラメータの個数は、群内共分散行列におけるTp(p+1)/2個と、平均ベクトルにおけるTp個です。よって、2次判別分析において推定されるパラメータの総数は、Tp(p+3)/2個です。
グループの標本サイズがpと比べて小さい場合、群内共分散行列の推定値はかなり不安定になります。そして、判別スコアは、群内共分散行列の逆行列における最小固有値から大きな影響を受けます。Friedman(1989)を参照してください。そのため、グループの標本サイズがpに比べて小さい場合は、正則化判別法で説明されている正則化判別法を用いることを検討してください。
以下の式で用いている記号については、Table 5.2を参照してください。観測値yからグループtへのMahalanobisの距離は、次のように定義されます。
グループt内における観測値yの確率密度推定値は、次のように求められます。
グループtに属する事後確率は、次のように求められます。
観測値yは、事後確率の値が最も大きいグループに割り当てられます。
2次判別法で保存される計算式は、次のように定義されます。
SqDist[<group t>] |
|
Prob[<group t>] |
|
Pred <X> |
t = 1, ..., Tに関して、p(t|y)が最大となるようなt |
メモ: SqDist[<group t>]は負になる場合もあります。
正則化判別法では、λとγの2つのパラメータを使用します。
• パラメータlは、プールして計算された群内共分散行列と、(グループごとに異なると仮定されて)各グループごとに計算された群内共分散行列との重みのバランスを取ります。
• パラメータgは、対角行列への縮小の度合いを決定します。
正則化判別法では、上記した2つの正則化によって、2次判別分析の推定結果を安定させます。Friedman(1989)を参照してください。以下の式で用いている記号については、Table 5.2を参照してください。
正則化判別法の場合、グループtの共分散行列は次のように求められます。
観測値yからグループtへのMahalanobisの距離は、次のように定義されます。
グループt内における観測値yの確率密度推定値は、次のように求められます。
グループtに属する事後確率は、次のように求められます。
観測値yは、事後確率の値が最も大きいグループに割り当てられます。
正則化判別法で保存される計算式は、次のように定義されます。
SqDist[<group t>] |
|
Prob[<group t>] |
|
Pred <X> |
t = 1, ..., Tに関して、p(t|y)が最大となるようなt |
メモ: SqDist[<group t>]は負になる場合もあります。
[線形 横長データ]オプションによって実行される判別法は、共変量の個数が多い場合、特に、共変量の個数がデータの行数より多い場合(p > n)に役立ちます。この手法では、プールした群内共分散行列Spの逆行列やその転置行列を、p > nの場合に計算負荷がない方式で計算します。特異値分解によって、大規模な共分散行列の逆行列を計算することを回避します。
[線形 横長データ]の判別法では、「すべてのグループにおける群内共分散行列は等しい」と仮定します。データの行数が共変量の個数と等しいかそれ以上の場合、この手法は線形判別法とまったく同じです。
以下の式で用いている記号については、Table 5.2を参照してください。[線形 横長データ]の判別法は、以下の手順で算出されています。
1. 各グループの標本平均を要素とした、T × p行列Mを計算します。Mの(t,j)番目の要素mtjは、グループtにおける、j番目の共変量の標本平均です。
2. 各共変量jについて、グループ全体のプールした標準偏差を計算します。これを、sjjとします。
3. 対角要素sjjを持つ対角行列をSdiagとします。
4. 各共変量の値を、次のようにして中心化および尺度化します。
– データ行が属するグループの平均を引きます。
– その差を、プールした標準偏差で割ります。
これを式で表すと、グループtに属するデータ行iの、j番目の共変量を標準化した値は、次式のようになります。
この式で、t(i)は、データ行iが属するグループtを示します。
5. を要素とする行列をYsとします。
6. グループで標準化した共変量から計算された、プールした群内共分散行列をRとします。この行列Rは、次のように表せます。
7. Ysを特異値分解します。
ここで、UとVの各ベクトルは、正規直交しています。また、Dは、対角要素が正の特異値となっている対角行列です。特異値分解を参照してください。
Rは次のように表せます。
8. Rがフルランクの場合には、R-1/2は次のように表せます。
この式で、D-1は、Dの対角要素の逆数を対角要素にもつ対角行列です。
Rがフルランクではない場合、Rの疑似逆行列は次のように定義されます。
これにより、Rの平方根の逆数に相当する行列を、次のように定義します。
9. R がフルランクの場合には、R- = R-1 です。そこで、行列がフルランクでない場合でも距離が計算できるように、常に疑似逆行列を使用します。
ここでp × pの行列Tsを次のように定義します。
このとき、次のような式が成立します。
この式で、S-pは、元データのプールされた群内共分散行列の一般化逆行列です。これは上式により、特異値分解で計算されます。
Mahalanobisの距離、確率密度推定値、および、事後確率の計算式は、線形判別法と同じです。ただし、Spの逆行列には、特異値分解によって算出された一般化逆行列が使われます。
計算式を保存すると、Mahalanobisの距離は分解によって求められます。観測値yのグループtまでの距離は、次のようにして求められます。最後の等式におけるSqDist[0]とDiscrim Prin Comp(「判別主成分」)は、保存される計算式で定義されているものです。
[線形 横長データ]オプションの判別分析で保存される計算式は、次のとおりです。
判別データ行列 |
共変量のベクトル |
判別主成分 |
主成分スコアを求める行列によって変換されたデータ。このデータは、グループ内で相関していないデータになります。によって求められます。この式で、は、全体平均を表すp × 1ベクトルです。 |
SqDist[0] |
|
SqDist[<group t>] |
データ行からグループの重心までのMahalanobisの距離。Mahalanobisの距離を参照してください。 |
Prob[<group t>] |
。線形判別法を参照してください。 |
Pred <X> |
t = 1, ..., Tに関して、p(t|y)が最大となるようなt |