この例では、米国全土に16箇所設置された測候所から1年間かけて収集した週ごとの気象データを使用します。データテーブルの「測候所の位置」スクリプトを実行すると、測定位置の地図が描かれます。なお、すべての測候所で、気温の要約値が年間を通じて毎週あるわけではありません。そこで、データ収集の日付に基づいて、このデータテーブルの検証列を作成することにします。各測候所について、それぞれ学習セットに観測値の最初の60%、検証セットに次の25%、テストセットに最後の15%を使用したいとします。このようなシナリオでは、バッチID列を使用することが重要です。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Functional Data」フォルダにある「Weekly Weather Data.jmp」を開きます。
2. [分析]>[予測モデル]>[検証列の作成]を選択します。
3. 「週番号」を選択して、[カットポイントの列]をクリックします。
4. [OK]をクリックします。
5. 「カットポイントの設定方法」の横にあるリストで、[割合]を選択します。
6. 「学習セット」・「検証セット」・「テストセット」の横にあるボックスに、それぞれ「0.60」・「0.25」・「0.15」と入力します。
7. 「新しい列の名前」の横のボックスに「カットポイント検証」と入力します。
8. [実行]をクリックします。
データテーブルに「カットポイント検証」という検証列が追加されます。
9. [分析]>[表の作成]を選択します。
10. 「ID」をクリックし、それを「行のドロップゾーン」までドラッグします。
11. 「カットポイント検証」を選択し、それを「N」までドラッグします。
12. 「行%」をクリックし、それをセルまでドラッグします。
図11.4 「カットポイント検証」列の割合
図11.4は、測候所の中には学習セット・検証セット・テストセットの割合が正しくないものがあることを示しています。正しい割合を得るためにはバッチIDを使用します。
1. [分析]>[予測モデル]>[検証列の作成]を選択します。
2. 「週番号」を選択し、[カットポイントの列]をクリックします。
3. 「ID」を選択し、「カットポイント バッチID」をクリックします。
4. [OK]をクリックします。
5. 「カットポイントの設定方法」の横にあるリストで、[割合]を選択します。
6. 「学習セット」・「検証セット」・「テストセット」の横にあるボックスに、それぞれ「0.60」・「0.25」・「0.15」と入力します。
7. 「新しい列の名前」の横のボックスに「カットポイントバッチ検証」と入力します。
8. [実行]をクリックします。
データテーブルに「カットポイントバッチ検証」という検証列が追加されます。
9. [分析]>[表の作成]を選択します。
10. 「ID」をクリックし、それを「行のドロップゾーン」までドラッグします。
11. 「カットポイントバッチ検証」を選択し、それを「N」までドラッグします。
12. 「行%」をクリックし、それをセルまでドラッグします。
図11.5 バッチIDの割合を使ったカットポイント検証列
図11.5を見ると、カットポイントバッチID列を使用することで、各測候所の学習セット・検証セット・テストセットの割合が指定された値により近くなっていることがわかります。