パーティションモデルはオーバーフィット(過学習)しやすいため、モデルで検証を使用することが重要です。オーバーフィットすると、モデルの作成に用いたデータでの予測は精確でも、将来のデータに対する予測精度は悪くなります。検証(validation)とは、データの一部をモデルパラメータの推定に使用し、残りのデータでモデルの予測能力を評価する方法を指します。検証については、JMPのモデル化での検証を参照してください。
「パーティション」で検証セットを指定した場合には、[実行]ボタンが表示されます。この[実行]ボタンは、[分岐]ボタンを手動で繰り返し押すことなしに、分岐処理を一度に実行したいときに使います。[実行]ボタンをクリックすると、現時点より後の10回のどの分岐においても、検証セットのR2乗が改善されない時点まで、一度に処理が実行されます。この方法では、解釈しにくい複雑なツリーになるかもしれませんが、求められたツリーの予測精度は高いでしょう。
[実行]ボタンを使ったときには、[分岐履歴]コマンドがオンになります。なお、[実行]ボタンを使ったときにノードの数が40を超えるツリーができた場合は、[ツリーの表示]コマンドはオフになります。
以下のいずれかの検証法を選択します。
除外された行
行の属性によって、データを分割します。除外されていない行を学習セット、除外されている行を検証セットとして用います。
行の属性と行の除外の詳細については、『JMPの使用法』のデータテーブル内での行の非表示と除外を参照してください。
保留
データを無作為に学習セットと検証セットに分割します。プラットフォームの起動ウィンドウにある「検証セットの割合」で、検証セットとして用いる部分の割合(保留する割合)を指定することができます。検証セットの割合の詳細については、「パーティション」プラットフォームの起動を参照してください。
検証列
検証セットを定義する数値列を使用します。この列には最大3つの異なる値が含まれていなければなりません。
– 検証列の値が2つしかない場合は、小さい方の値が学習セット、大きい方の値が検証セットとして扱われます。
– 水準が3つの場合は、値が小さいものから順に、学習セット、検証セット、テストセットとして使われます。
– 検証列に4つ以上の水準がある場合は、小さい方から3つの値を含む行が検証セットとして使われます。その他の行はすべて分析から除外されます。
「列の選択」リストで列を選択せず、[検証]ボタンをクリックすると、データテーブルに検証列を新規作成することができます。「検証列の作成」ユーティリティの詳細については、検証列の作成を参照してください。
ヒント: パーティションモデルをK分割交差検証法や入れ子式交差検証法で検証したい場合には、「モデルのスクリーニング」プラットフォームを用いてください。詳細については、モデルのスクリーニングを参照してください。
「モデルの評価」レポートには次の情報が表示されます。
K分割
分割数。
(-2)*対数尤度またはSSE
応答変数がカテゴリカルである場合は、(-1)*対数尤度の2倍、つまり(-2)*対数尤度が計算されます。応答変数が連続尺度である場合は、誤差平方和(SSE)が計算されます。最初の行には、各分割にわたって平均化された結果が表示されます。2行目には、データすべてに対する1つのモデルのあてはまりの結果が表示されます。対数尤度の詳細については、『基本的な回帰モデル』の尤度・AICc・BICを参照してください。
R2乗
最初の行には、各分割にわたって平均化されたR2乗値が表示されます。2行目には、データすべてに対する1つのモデルのあてはまりのR2乗値が表示されます。