「モデルのスクリーニング」プラットフォームを起動するには、[分析]>[予測モデル]>[モデルのスクリーニング]を選択します。
図10.3 「モデルのスクリーニング」起動ウィンドウ
「列の選択」の赤い三角ボタンのメニューのオプションについては、『JMPの使用法』の列フィルタメニューを参照してください。
Y, 応答変数
分析したい目的変数(応答変数)。
X, 説明変数
モデルに含める説明変数。
重み
(指定しても、「K近傍法」・「サポートベクトルマシン」・「ニューラル」プラットフォームでは使われません。)分析において各行の重みとして使用される数値を含む列。
度数
(指定しても、「K近傍法」プラットフォームでは使われません。)この役割を割り当てた列の数値は、分析において各行の度数として使用されます。
検証
(起動ウィンドウで交差検証法のいずれかのオプションが選択されている場合は使われません。)検証セットを定義する数値列。「列の選択」リストで列を選択せず、[検証]ボタンをクリックすると、データテーブルに検証列を新規作成することができます。検証列を作成する方法の詳細については、検証列の作成を参照してください。
メモ: 水準が4つ以上ある検証列を指定した場合、K分割交差検証法が実行されます。
By
別々に分析を行いたいときに、そのグループ分けをする変数を指定します。指定された列の水準ごとに、別々に分析が行われます。各水準の結果は別々のレポートに表示されます。複数のBy変数を割り当てた場合、それらのBy変数の水準の組み合わせごとに個別のレポートが作成されます。
メソッド
希望するモデルプラットフォームを選択できます。デフォルトで使われるプラットフォームは、「ディシジョンツリー(パーティション)」・「ブートストラップ森」・「ブースティングツリー」・「K近傍法」・「ニューラル」・「サポートベクトルマシン」・「判別分析」・「最小2乗法によるあてはめ」・「ステップワイズ法の実行」・「ロジスティック回帰」・「一般化回帰」です。「単純Bayes」・「PLS回帰」・「XGBoost」もオプションで使えます。
メモ:
– XGBoostはJMPそのものではサポートされていません。XGBoostアドインがインストールされている場合にのみ使用できます。XGBoostの詳細については、community.jmp.comを参照してください。
– 「ディシジョンツリー(パーティション)」・「判別分析」・「PLS回帰」はすべて、モデルをあてはめるのに何らかの検証セットが必要です。
– 検証セットの標本サイズ(観測数)が20個を下回る場合、「ディシジョンツリー(パーティション)」をあてはめることはできません。
– 各プラットフォームは、モデルをあてはめる際、デフォルトのオプションと調整パラメータを使用します。デフォルトの設定よりも良い結果を得たい場合には、各プラットフォームを直接呼出して、別のオプションを選択してみてください。
– 「一般化回帰」にある[追加の手法]オプションは、「一般化回帰」プラットフォームで、リッジ・弾性ネット・Lassoなどの手法を呼び出します。Lasso法の場合は、観測数が1000未満で変数の数が100未満であるとき、早期打ち切りは無効になります。『基本的な回帰モデル』の一般化回帰モデルを参照してください。
注意: このオプションを選択すると、「一般回帰」プラットフォームにおいて、デフォルト以外のモデルもあてはめられます。
各プラットフォームのモデル設定に対して、次のようなオプションがあります。
2次交互作用の追加
線形モデルにすべての2次交互作用効果を追加する。
2乗項の追加
線形モデルに2乗項を追加する。
欠測値をカテゴリとして扱う
すべてのプラットフォームに対し、欠測値をカテゴリとして扱う。
その他のオプションがあります。
乱数シード値の設定
乱数のシード値を指定する。いくつかのプラットフォームでは、モデルのあてはめにおいて乱数を用いています。その乱数に対するシード値をここで設定できます。これによって、プラットフォームを再実行した際に、同じ結果を得ることができます。
各モデルの制限時間
各あてはめに対する制限時間を秒単位で指定する。早期打ち切りをサポートしているプラットフォームの場合は、その時点における最良の推定値が表示されます。早期打ち切りをサポートしないプラットフォームの場合、結果は表示されません。
個々のレポートの削除
「モデルのスクリーニング」レポートウィンドウに個々のプラットフォームのレポートを含めないようにします。
ヒント: 大規模なデータに対して多くのモデルをあてはめる場合には、このオプションを選択すると、メモリを節約できます。
あてはめたモデルをログに出力
各モデルのプラットフォームが呼び出されるたびに、ログに進行状況メッセージを書き出す。
さまざまな交差検証法のオプションがあります。
K分割交差検証
データをK個のグループに無作為に分割します。K-1個の分割を使用してモデルをデータにあてはめてモデルを作成し、残りの分割は交差検証に使用します。これをK回繰り返し、合計K個のモデルを作成します。Kのデフォルト値は5です。
– Kによって、K分割交差検証の分割数が決まります。Kは1より大きくなければなりません。
– あてはめられたモデルのうち最適なモデルの結果が表示されます。
入れ子式交差検証
交差検証用にデータを入れ子状のグループに分けます。まず、データがk = 1, ..., K個のグループに分割されます。この分割において、k番目のグループがテストセットとして用いられ、残りのデータはさらにL個の等しいグループに分けられます。これらのL個の小グループは「内側分割」(inner folds)と呼ばれます。次に、L-1個の内側分割を使用してモデルをデータにあてはめ、残りの内側分割は毎回検証セットとして使用します。そして、L個のモデルはk番目のグループを共通のテストセットとして使用します。全部で合計K*L個のモデルがあてはめられます。Kのデフォルト値は4で、Lのデフォルト値は5です。
たとえば、K = 2とL = 3に設定したとします。最初、データは2つのグループに分けられます。最初のグループはテストセットとして用いられ、2番目のグループは3つに内側分割されます。3つのモデルがデータにあてはめられ、その際、毎回異なる1つの小グループが検証セットとして用いられます。その後、3つのモデルすべてが最初のグループに対してテストされます。
次に、2番目のグループがテストセットとして用いられ、最初のグループは3つに内側分割されます。そして、先ほどと同じ要領で、3つのモデルがデータにあてはめられ、その際、毎回異なる1つの小グループが検証セットとして用いられます。その後、3つのモデルすべてが2番目のグループに対してテストされます。
– Kによって、入れ子式交差検証の外側の分割数が決まります。デフォルト値は4で、Kは1より大きくなければなりません。
– Lによって、入れ子式交差検証の内側の分割数が決まります。デフォルト値は5で、Lは1より大きくなければなりません。
メモ: [K分割交差検証]と[入れ子式交差検証]の両方が選択されている場合は、[入れ子式交差検証]が実行されます。
反復K分割
K分割交差検証や入れ子式交差検証の反復回数を指定する。
[OK]をクリックすると、指定されたモデルがあてはめられ、2つの進行状況を示すバーが表示されます。上側の進行状況バーは、すべてのあてはめに関する進行状況を示します。下側の進行状況バーは、現在行われている個々のモデルのあてはめに関する進行状況を示します。なお、下側の進行状況バーで中止して早期打ち切りにしても、上の進行状況バーは続けて実行されます。