予測モデルおよび発展的なモデル > 検証列の作成 > 「検証列の作成」プラットフォームの起動
公開日: 09/19/2023

ここに画像を表示「検証列の作成」プラットフォームの起動

「検証列の作成」プラットフォームを起動するには、[分析]>[予測モデル]>[検証列の作成]を選択します。

図12.3 「検証列の作成」起動ウィンドウ 

「検証列の作成」起動ウィンドウ

「列の選択」の赤い三角ボタンのメニューのオプションについては、『JMPの使用法』の列フィルタメニューを参照してください。

「検証列の作成」起動ウィンドウには、以下のオプションがあります。

層別の列

1つまたは複数の層別の列を割り当てます。

グループの列

1つまたは複数のカテゴリカルなグループの列を割り当てます。

カットポイントの列

特定の閾値で分割するときの基準となる、数値列を1つ割り当てます。

カットポイント バッチID

カットポイントの列を割り当てると、カットポイントバッチIDの列も割り当てることができます。これにより、カットポイントバッチIDの各水準内ごとに、閾値で分割されます。

実行される分割方法

3通りの検証方法があります。

検証列の作成

指定された層別変数・グループ変数・カットポイントの列に基づいて、検証列は作成されます。このボックスの下には、その検証列の作成に用いる抽出方法についての説明が表示されます。抽出方法を選択し、[OK]をクリックした後、「検証列の作成」レポートにおいて、各セットにどれぐらい、どの程度を割り当てるかを指定していきます。割合、または、割合の相対的な大きさを指定するおよびカットポイントの設定を参照してください。データ分割に用いる抽出方法としては、5通りの手法があります。カットポイント分割を除き、これらの手法はすべて、K分割検証用のグループを作成することもできます。K分割検証列の作成を参照してください。

単純無作為抽出による検証列

起動ウィンドウで列が選択されなかった場合のデフォルトの手法です。この手法は、「検証列の作成」レポートに入力された割り当てに基づいて、データをセットまたはグループに分割します。

層化無作為抽出による検証列

1つまたは複数の層別の列が割り当てられた場合に選択される手法です。この手法は、指定された層別変数の水準ごとでバランスのとれたセットに分割します。「単純無作為抽出による検証列」手法と同様に、「検証列の作成」レポートで指定した設定に基づき、行が各セットもしくは各グループに無作為に割り当てられます。ただし、単純無作為抽出ではなくて、指定された列の水準または水準の組み合わせを層として、層化無作為抽出が行われます。この手法は、学習・検証・テストの各セットにおいて、あるいはK分割交差検証の各グループにおいて、列の水準のバランスを良くしたい場合に使用します。

クラスター無作為抽出による検証列

1つまたは複数のグループの列が指定された場合に選択される手法です。この手法は、指定した列の水準全体、または2つ以上の列の水準の組み合わせ全体が、各セットもしくは各グループに割り振られるようにデータを分割します。結果的に得られる各セットや各グループの大きさは、指定したものとわずかに異なります。このオプションは、ある列における各水準を別々のセットまたは別々のグループに割り振るのが適切でない場合に使用します。

層化クラスター無作為抽出による検証列

層別の列とグループの列の両方が指定された場合に選択される手法です。この手法は、指定されたグループを同じセットまたは同じグループ内に留めつつ、層別変数の水準のバランスが良くなるように、データを分割します。「クラスター無作為抽出による検証列」と同様に、[グループの列]に指定した1つの列の水準が、または複数の列の水準の組み合わせが、クラスターとして抽出されます。結果的に得られる各セットや各グループの大きさは、指定したものとわずかに異なります。

カットポイント分割による検証列

カットポイントの列が指定された場合に選択される手法です。この手法は、時系列のカットポイント(データを前後で分割する時点)に基づいてデータを複数のセットに分割します。このオプションは、時系列データを特定の時点に基づいてセットに分割したい場合に使用します。学習セットは、最初のカットポイントから2番目のカットポイントまでの行で構成されます。検証セットは、2番目のカットポイントから3番目のカットポイントまでの行で構成されます。テストセットは、残りの行で構成されます。これらのセットは、「カットポイントの設定」レポートのオプションに基づいて選択されます。

自己検証データの作成

元のデータテーブルにおける行を複製し、新しいデータテーブルを作成します。これらの複製された行は元のデータに連結されます。この新しいデータテーブルは、交差検証に用いることができます。以下の4つの列が、元のデータテーブルに追加されています。

Valid Set

元のデータには0の値を、複製されたデータには1の値を割り当てます。この列の値によって、学習セットと検証セットが決まります。この列は、分析の起動ウィンドウにある[検証]の役割で使用します。

Valid ID

元の観測値の行番号を割り当てます。これにより、元の各観測値に対し、学習セットと検証セットの行を照合できます。

Valid Weight

自己検証の重みを割り当てます。この列を、分析の起動ウィンドウにある[度数]の役割に割り当ててください。「Valid ID」の各値に対し、学習セットの観測値と検証セットの観測値で、同じ一様乱数が使われます。学習セットの場合、「Valid Weight」は次式で計算されます。

Valid Weight = -log(1 - 一様乱数)

検証セットの場合、「Valid Weight」は次式で計算されます。

Valid Weight = -log(一様乱数)

このように設定された「Valid Weight」列は、学習データの重みと検証データの重みで負の相関になります。これにより、検証データでの適合度によって、効率的に交差検証を行えるようになります。

Null Factor

「Valid ID」の各値に同じ正規乱数を割り当てます。

ヒント: 小さなデータテーブルでは、データの一部分だけからモデルパラメータを推定すると、推定の問題が発生する可能性があるため、[自己検証データの作成]を使用してください。

K分割検証列の作成

層別の列とグループの列に基づいて、4つ以上のカテゴリを持つ検証列を作成します。各カテゴリは、それぞれK分割交差検証で使用するグループを表します。「Y」列は行の順序付けに使用され、各行がそれぞれ順番にグループに割り当てられます。このボックスの下には、指定した層別の列とグループの列によって決定された検証列の手法が表示されます。これらは、検証列の作成で説明しているのと同じ手法です。手法が選択されたら、[OK]をクリックし、「検証列の作成」レポートでグループ数Kを指定します。分割数の設定を参照してください。

欠測値

層別・グループ・カットポイントの列が欠測値になっている場合、その行の検証列の値は欠測値になります。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).