パーティションモデルは過剰適合(オーバーフィット、過学習)しやすいため、モデルで検証を使用することが重要です。過剰適合すると、モデルの作成に用いたデータでの予測は精確でも、将来のデータに対する予測精度は悪くなります。検証(validation)とは、データの一部をモデルパラメータの推定に使用し、残りのデータでモデルの予測能力を評価する方法を指します。検証については、JMPのモデル化での検証を参照してください。
「パーティション」で検証セットを指定した場合には、[実行]ボタンが表示されます。この[実行]ボタンは、[分岐]ボタンを手動で繰り返し押すことなしに、分岐処理を一度に実行したいときに使います。[実行]ボタンをクリックすると、現時点より後の10回のどの分岐においても、検証セットのR2乗が改善されない時点まで、一度に処理が実行されます。この方法では、解釈しにくい複雑なツリーになるかもしれませんが、求められたツリーの予測精度は高いでしょう。
[実行]ボタンを使ったときには、[分岐履歴]コマンドがオンになります。なお、[実行]ボタンを使ったときにノードの数が40を超えるツリーができた場合は、[ツリーの表示]コマンドはオフになります。
このような検証を行うには、以下のいずれかの方法を選択します。
除外された行
行の属性によって、データを分割します。除外されていない行を学習セット、除外されている行を検証セットとして用います。
行の属性と行の除外の詳細については、『JMPの使用法』のデータテーブル内での行の非表示と除外を参照してください。
保留
データを無作為に学習セットと検証セットに分割します。プラットフォームの起動ウィンドウにある「検証セットの割合」で、検証セットとして用いる部分の割合(保留する割合)を指定することができます。検証セットの割合の詳細については、「パーティション」プラットフォームの起動を参照してください。
検証列
検証セットを定義する数値列を使用します。この列には最大3つの異なる値が含まれていなければなりません。
– 検証列の値が2つしかない場合は、小さい方の値が学習セット、大きい方の値が検証セットとして扱われます。
– 水準が3つの場合は、値が小さいものから順に、学習セット・検証セット・テストセットとして使われます。
– 検証列に4つ以上の水準がある場合は、小さい方から3つの値を含む行が検証セットとして使われます。その他の行はすべて分析から除外されます。
「列の選択」リストで列を選択せず、[検証]ボタンをクリックすると、データテーブルに検証列を新規作成することができます。検証列を作成する方法の詳細については、検証列の作成を参照してください。
ヒント: パーティションモデルをK分割交差検証法や入れ子式交差検証法で検証したい場合には、「モデルのスクリーニング」プラットフォームを用いてください。モデルのスクリーニングを参照してください。