「検証列の作成」プラットフォームを起動するには、[分析]>[予測モデル]>[検証列の作成]を選択します。
図11.3 「検証列の作成」起動ウィンドウ
「列の選択」の赤い三角ボタンのメニューにあるオプションの詳細については、『JMPの使用法』の列フィルタメニューを参照してください。
「検証列の作成」起動ウィンドウには、以下のオプションがあります。
層別の列
1つまたは複数の層別の列を割り当てます。
グループの列
1つまたは複数のグループの列を割り当てます。
カットポイントの列
数値カットポイントの列を1つ割り当てます。
カットポイント バッチID
カットポイントの列を割り当てると、カットポイントバッチIDの列も割り当てることができます。これにより、カットポイントバッチIDの各水準内でカットポイント値を判断できます。
実行される分割方法
指定された層別、グループ、カットポイントの列に基づいて選択された検証列の手法が示されます。手法が選択され、[OK]をクリックした後、「検証列の作成」レポートで各セットの割り当てを指定します。割合、または、割合の相対的な大きさを指定するおよびカットポイントの設定を参照してください。データの抽出には5通りの手法があります。
単純無作為抽出による検証列
起動ウィンドウで列が選択されなかった場合のデフォルトの手法です。この手法は、「検証列の作成」レポートに入力した割り当てに基づいてデータを分割します。
層化無作為抽出による検証列
1つまたは複数の層別の列が割り当てられた場合に選択される手法です。この手法は、指定された層別の列の水準に基づいて、データをバランスのとれたセットに分割します。「単純無作為抽出による検証列」手法と同様に、「検証列の作成」レポートに入力した割り当てに基づき、行が各セットに無作為に割り当てられます。ただし、単純無作為抽出ではなくて、指定された列の水準または水準の組み合わせを層として、層化無作為抽出が行われます。この手法は、学習、検証、テストの各セットにおいて列の水準のバランスを良くしたい場合に使用します。
クラスター無作為抽出による検証列
1つまたは複数のグループの列が指定された場合に選択される手法です。この手法は、指定した列の水準全体、または2つ以上の列の水準の組み合わせ全体が同じセットに割り振られるように、データを各セットに分割します。結果的に得られる各セットの大きさは、指定したものとわずかに異なります。このオプションは、ある列における各水準を別々のセットに割り振るのが適切でない場合に使用します。
層化クラスター無作為抽出による検証列
層別の列とグループの列の両方が指定された場合に選択される手法です。この手法は、指定されたグループを同じセット内に留めつつ、層別の列の水準のバランスが良くなるように、データを分割します。「クラスター無作為抽出による検証列」と同様に、指定された列の水準として、または複数の列の水準の組み合わせとして、グループを作成できます。結果的に得られる各セットの大きさは、指定したものとわずかに異なります。
カットポイント分割による検証列
カットポイントの列が指定された場合に選択される手法です。この手法は、時系列のカットポイント(データを前後で分割する時点)に基づいてデータをセットに分割します。このオプションは、時系列データを特定の時点に基づいてセットに割り当てたい場合に使用します。学習セットは、最初のカットポイントから2番目のカットポイントまでの行で構成されます。検証セットは、2番目のカットポイントから3番目のカットポイントまでの行で構成されます。テストセットは、残りの行で構成されます。これらのセットは、「カットポイントの設定」レポートのオプションに基づいて選択されます。