<検証法の名前>による検証手法 = <PLS法の名前>
「モデルの設定」パネルで[検証法]として、何らかの検証法を選択した場合には、検証結果のレポートも表示されます。「モデルの設定」パネルでの指定に基づき、0から最大数までの因子の各モデルに関して、要約統計量が表示されます。このレポートには、PRESS平均平方根の棒グラフも表示されます。第 “PRESS平均平方根プロット”を参照してください。PRESS平均平方根が最小になっているモデルが、最適なモデルであると判断できます。
図6.9 交差検証のレポート
[Xの標準化]オプションが選択されている場合、標準化はデータテーブル全体に対して一度だけ適用され、 個々の学習セットには再適用されません。ただし、[中心化]や[尺度化]のオプションが選択されている場合は、交差検証における中心化や尺度化は各学習セットに適用されます。これらのオプションが選択されている場合は、それぞれ個別に中心化や尺度化された学習セットによって交差検証が進められます。
この検定統計量は、各モデルが最適なモデルと有意に異なるかどうかを検定するためのものです。それぞれのvan der Voet T2検定の帰無仮説は、「この因子数に基づくモデルは、最適なモデルと異ならない」です。対立仮説は「モデルは最適なモデルと異なる」です。詳細については、第 “van der Voet のT2”を参照してください。
Q2
累積Q2
R2X
累積R2X
R2Y
累積R2Y
•
|
累積R2Yは、因子数が増えるにつれて増加します。これは、より多くの因子がモデルに追加されるにつれて、より多くの変動が説明されるからです。
|
•
|
Q2の場合は、因子数が増えるにつれて増加した後、減少するか少なくとも増加を止めます。これは、より多くの因子が追加されるにつれてモデルは学習セットに合わせられ、新しいデータに対して適切に一般化されないため、PRESS統計量が減少するからです。
|
モデルにいくつの因子を含めるかを決定するときに、van der Voet検定の代わりに、Q2と累積R2Yを用いることもできます。それには、Q2値が大きく、減少が始まっていない時点での因子数を選択します。また、累積R2Y値も大きくなっているモデルを選択することも考えられます。
「Penta.jmp」の累積R2YとQ2は、「Penta.jmp」データテーブルの累積R2YとQ2を、因子数に対してプロットしたものです。検証法には「1つ取って置き法」を使用しています。累積R2Yは、因子数4のあたりまで増加し、その後は平らになっています。Q2は、因子数2で最も大きく、その後は平らになっています。このプロットから、因子数2のモデルがYの変動の多くを説明し、データに対するオーバーフィットも回避することがわかります。
PRESS平均平方根プロットは、横軸に因子数、縦軸にPRESS平均平方根を示した棒グラフです。これは、「交差検証」レポートの「PRESS平均平方根」の右側に表示される横向きの棒グラフと同じです。交差検証のレポートを参照してください。
因子数aに対するPRESS平均平方根は、次のように計算されます。
1.
|
a個の因子のモデルが各学習セットにあてはめられます。
|
4.
|
A 個の因子の「PRESS平均平方根」は、すべての応答のPRESSの値を平均し、その平方根を求めたものです。
|
5.
|
Y変数が複数ある場合には、第 3 步で得られたPRESS統計量を全応答変数で平均したものが使われます。
|
Q2の計算
Q2は、1 - PRESS / SSYという式で計算される統計量です。この式で、PRESSは、学習データから推定されたモデルを検証セットで評価したときの予測誤差平方和を、全応答変数で平均したものです。SSYは、検証セットにおけるYの平方和を、全応答変数で平均したものです。
「交差検証」レポートのQ2は、選択した「検証法」に応じて、次のように計算されます。
1つ取って置き法のR2Xは、オブザベーションを一度に1つずつ除外することで構築したモデルの「Xの説明される変動(%)」の平均です。
K分割法のR2Xは、K個に分割されたデータのうち1つの分割を順に除外することで構築したモデルの「Xの説明される変動(%)」の平均です。
保留法や検証列を用いた場合のR2Xは、学習データを使用して構築したモデルの「Xの説明される変動(%)」です。