この例では、2つのカットポイント検証列を比較します。1つの検証列はカットポイント列を使用して作成されており、もう1つの検証列はカットポイント列とバッチID列の両方を使用して作成されています。このデータは、米国全土に16箇所設置された測候所から1年間かけて収集した週ごとの気象データです。なお、すべての測候所で、気温の要約値が年間を通じて毎週あるわけではありません。各測候所について、それぞれ学習セットに観測値の最初の60%、検証セットに次の25%、テストセットに最後の15%を使用したいとします。
1. [ヘルプ]>[サンプルデータフォルダ]を選択し、「Functional Data」フォルダにある「Weekly Weather Data.jmp」を開きます。
2. [分析]>[予測モデル]>[検証列の作成]を選択します。
3. 「週番号」を選択して、[カットポイントの列]をクリックします。
4. [OK]をクリックします。
5. 「カットポイントの設定方法」の横にあるリストで、[割合]を選択します。
6. 「学習セット」・「検証セット」・「テストセット」の横にあるボックスに、それぞれ「0.60」・「0.25」・「0.15」と入力します。
7. 「新しい列の名前」の横のボックスに「カットポイント検証」と入力します。
8. [実行]をクリックします。
データテーブルに「カットポイント検証」という検証列が追加されます。
9. [分析]>[表の作成]を選択します。
10. 「ID」をクリックし、それを「行のドロップゾーン」までドラッグします。
11. 「カットポイント検証」を選択し、それを「N」までドラッグします。
12. 「行%」をクリックし、それをセルまでドラッグします。
図12.4 「カットポイント検証」列の割合
Figure 12.4は、測候所の中には学習セット・検証セット・テストセットの割合が正しくないものがあることを示しています。正しい割合を得るためにはバッチIDを使用します。
1. [分析]>[予測モデル]>[検証列の作成]を選択します。
2. 「週番号」を選択して、[カットポイントの列]をクリックします。
3. 「ID」を選択し、「カットポイント バッチID」をクリックします。
4. [OK]をクリックします。
5. 「カットポイントの設定方法」の横にあるリストで、[割合]を選択します。
6. 「学習セット」・「検証セット」・「テストセット」の横にあるボックスに、それぞれ「0.60」・「0.25」・「0.15」と入力します。
7. 「新しい列の名前」の横のボックスに「カットポイントバッチ検証」と入力します。
8. [実行]をクリックします。
データテーブルに「カットポイントバッチ検証」という検証列が追加されます。
9. [分析]>[表の作成]を選択します。
10. 「ID」をクリックし、それを「行のドロップゾーン」までドラッグします。
11. 「カットポイントバッチ検証」を選択し、それを「N」までドラッグします。
12. 「行%」をクリックし、それをセルまでドラッグします。
図12.5 バッチIDの割合を使ったカットポイント検証列
Figure 12.5を見ると、カットポイントバッチID列を使用することで、各測候所の学習セット・検証セット・テストセットの割合が指定された値により近くなっていることがわかります。