検証(validation)とは、データの一部をモデルパラメータの推定に使用し、残りのデータでモデルの予測能力を評価する方法を指します。
• 学習セットは、モデルパラメータの推定に使用します。
• 検証セットは、モデルの予測能力の評価・検証に使用します。
• 予測能力の最終評価に使うデータを、テストセットといいます。検証列を指定した場合のみ、テストセットを使用できます。
学習セット・検証セット・テストセットは、元のデータを分割して得られるものです。データを各セットに分割するには、「モデルのあてはめ」起動ウィンドウで検証列を指定します。
検証列の値によってデータの分割形式と検証の方法が決まります。
• 検証列に異なる値が2つある場合は、データが学習セットと検証セットに分割されます。
• 検証列に異なる値が3つある場合は、データが学習セット・検証セット・テストセットに分割されます。
• 検証列に異なる値が4つ以上ある場合、または1つしかない場合は、検証は行われません。
検証列を使用した場合、セットごとに適合度統計量が計算され、「あてはめの詳細」レポートに表示されます。また、ROC曲線、リフトチャート、混同行列もセットごとに作成されます。