「検証列の作成」プラットフォームを起動するには、[分析]>[予測モデル]>[検証列の作成]を選択します。
図12.3 「検証列の作成」起動ウィンドウ
「列の選択」の赤い三角ボタンのメニューのオプションについては、『JMPの使用法』の列フィルタメニューを参照してください。
「検証列の作成」起動ウィンドウには、以下のオプションがあります。
層別の列
1つまたは複数の層別の列を割り当てます。
グループの列
1つまたは複数のグループの列を割り当てます。
カットポイントの列
特定の閾値で分割するときの基準となる、数値列を1つ割り当てます。
カットポイント バッチID
カットポイントの列を割り当てると、カットポイントバッチIDの列も割り当てることができます。これにより、カットポイントバッチIDの各水準内ごとに、閾値で分割されます。
2通りの検証方法があります。
検証列の作成
指定された層別変数、グループ変数、カットポイントの列に基づいて検証列を作成します。このボックスの下には、その検証列手法の説明が表示されます。手法が選択され、[OK]をクリックした後、「検証列の作成」レポートにおいて、各セットにどれぐらい、どの程度を割り当てるかを指定していきます。割合、または、割合の相対的な大きさを指定するおよびカットポイントの設定を参照してください。データ分割に用いる抽出方法としては、5通りの手法があります。
単純無作為抽出による検証列
起動ウィンドウで列が選択されなかった場合のデフォルトの手法です。この手法は、単純無作為抽出によってデータを分割します。
層化無作為抽出による検証列
1つまたは複数の層別の列が割り当てられた場合に選択される手法です。この手法は、指定された層別変数の水準ごとでバランスのとれたセットに分割します。「単純無作為抽出による検証列」手法と同様に、「検証列の作成」レポートで指定した設定に基づき、行が各セットに無作為に割り当てられます。ただし、単純無作為抽出ではなくて、指定された列の水準または水準の組み合わせを層として、層化無作為抽出が行われます。この手法は、学習・検証・テストの各セットにおいて列の水準のバランスを良くしたい場合に使用します。
クラスター無作為抽出による検証列
1つまたは複数のグループの列が指定された場合に選択される手法です。この手法は、指定した列の水準全体、または2つ以上の列の水準の組み合わせ全体が同じセットに割り振られるように、データを各セットに分割します。結果的に得られる各セットの大きさは、指定したものとわずかに異なります。このオプションは、ある列における各水準を別々のセットに割り振るのが適切でない場合に使用します。
層化クラスター無作為抽出による検証列
層別の列とグループの列の両方が指定された場合に選択される手法です。この手法は、指定されたグループを同じセット内に留めつつ、層別変数の水準のバランスが良くなるように、データを分割します。「クラスター無作為抽出による検証列」と同様に、[グループの列]に指定した1つの列の水準が、または複数の列の水準の組み合わせが、クラスターとして抽出されます。結果的に得られる各セットの大きさは、指定したものとわずかに異なります。
カットポイント分割による検証列
カットポイントの列が指定された場合に選択される手法です。この手法は、時系列のカットポイント(データを前後で分割する時点)に基づいてデータを複数のセットに分割します。このオプションは、時系列データを特定の時点に基づいてセットに分割したい場合に使用します。学習セットは、最初のカットポイントから2番目のカットポイントまでの行で構成されます。検証セットは、2番目のカットポイントから3番目のカットポイントまでの行で構成されます。テストセットは、残りの行で構成されます。これらのセットは、「カットポイントの設定」レポートのオプションに基づいて選択されます。
自己検証データの作成
元のデータテーブルにおける行を複製し、新しいデータテーブルを作成します。これらの複製された行は元のデータに連結されます。この新しいデータテーブルは、交差検証に用いることができます。以下の4つの列が、元のデータテーブルに追加されています。
Valid Set
元のデータには0の値を、複製されたデータには1の値を割り当てます。この列の値によって、学習セットと検証セットが決まります。この列は、分析の起動ウィンドウにある[検証]の役割で使用します。
Valid ID
元の観測値の行番号を割り当てます。これにより、元の各観測値に対し、学習セットと検証セットの行を照合できます。
Valid Weight
自己検証の重みを割り当てます。この列を、分析の起動ウィンドウにある[度数]の役割に割り当ててください。「Valid ID」の各値に対し、学習セットの観測値と検証セットの観測値で、同じ一様乱数が使われます。学習セットの場合、「Valid Weight」は次式で計算されます。
Valid Weight = -log(1 - 一様乱数)
検証セットの場合、「Valid Weight」は次式で計算されます。
Valid Weight = -log(一様乱数)
このように設定された「Valid Weight」列は、学習データの重みと検証データの重みで負の相関になります。これにより、検証データでの適合度によって、効率的に交差検証を行えるようになります。
Null Factor
「Valid ID」の各値に同じ正規乱数を割り当てます。
ヒント: 小さなデータテーブルでは、データの一部分だけからモデルパラメータを推定すると、推定の問題が発生する可能性があるため、[自己検証データの作成]を使用してください。