「ブートストラップ森」プラットフォームを起動するには、[分析]>[予測モデル]>[ブートストラップ森]を選択します。
図5.7 「ブートストラップ森」起動ウィンドウ
「列の選択」の赤い三角ボタンのメニューのオプションについては、『JMPの使用法』の列フィルタメニューを参照してください。
「ブートストラップ森」プラットフォームの起動ウィンドウには、以下のオプションがあります。
Y, 目的変数
分析したい目的変数(応答変数)。
X, 説明変数
モデルに含める説明変数。
重み
分析において各行の重みとして使用される数値を含む列。
度数
分析において各行の度数として使用される数値を含む列。
検証
検証セットを定義する数値列。この列には最大3つの異なる値が含まれていなければなりません。
– 検証列の値が2つしかない場合は、小さい方の値が学習セット、大きい方の値が検証セットとして扱われます。
– 水準が3つの場合は、値が小さいものから順に、学習セット、検証セット、テストセットとして使われます。
– 検証列に4つ以上の水準がある場合は、小さい方から3つの値を含む行が検証セットとして使われます。その他の行はすべて分析から除外されます。
「ブートストラップ森」プラットフォームでは、検証列を使ってモデルを学習・調整するか、またはモデルを学習・調整・評価します。検証については、JMPのモデル化での検証を参照してください。
「列の選択」リストで列を選択せず、[検証]ボタンをクリックすると、データテーブルに検証列を新規作成することができます。「検証列の作成」ユーティリティの詳細については、検証列の作成を参照してください。
By
別々に分析を行いたいときに、そのグループ分けをする変数を指定します。指定された列の水準ごとに、別々に分析が行われます。各水準の結果は別々のレポートに表示されます。複数のBy変数を割り当てた場合、それらのBy変数の水準の組み合わせごとに別々のレポートが作成されます。
手法
パーティションの手法として、[ディシジョンツリー]・[ブートストラップ森]・[ブースティングツリー]・[K近傍法]・[単純Bayes]を選択できます。[ディシジョンツリー]以外の手法は、JMP Proでのみ利用できます。
[ブートストラップ森]以外の手法の詳細については、パーティション、ブースティングツリー、K近傍法、および単純 Bayesを参照してください。
検証データの割合
データ全体のうち検証セットに割り振るデータの割合です。
欠測値をカテゴリとして扱う
説明変数がカテゴリカルな場合、このチェックボックスをオンにすると、分析において、欠測値が1つのカテゴリとして扱われます。説明変数が連続尺度の場合は、欠測値が同一の数値を持つものとして扱われます。欠測値をカテゴリとして扱うを参照してください。
順序尺度列の順序を保つ
このチェックボックスをオンにすると、順序尺度の列において、順序を保つ分岐だけが考慮されるようになります。
起動ウィンドウで[OK]をクリックすると、「ブートストラップの森の指定」ウィンドウが表示されます。
図5.8 「ブートストラップの森の指定」ウィンドウ
行数
データテーブルの行数。
項の数
説明変数として指定された列の数。
森におけるツリーの数
作成されるツリーの総数。
1分岐あたりに抽出される項の数
各分岐において、分岐の候補として検討される説明変数の個数。分岐ごとに、分岐の候補としてここに指定した個数だけ、無作為に説明変数が抽出されます。
ブートストラップ抽出率
各ツリーの作成時に抽出するデータ行の割合(抽出方法は復元抽出です)。ツリーごとに新しく無作為抽出が行われます。
ツリーあたりの最小分岐数
各ツリーで行う分岐の最小数。
ツリーあたりの最大分岐数
各ツリーで行う分岐の最大数。
分岐の最小サイズ
分岐候補を求めるのに必要とするデータ行の最低数。
早期打ち切り
(検証セットを使用している場合のみ。)このオプションを選択すると、追加のツリーを成長させ続けても検証データの適合度統計量がこれ以上改善されない時点で、処理が打ち切られます。この適合度統計量には、応答変数がカテゴリカルな場合には検証セットの「エントロピーR2乗」値が、応答変数が連続尺度の場合には検証セットの「R2乗」値が使われます。このオプションを選択しなかった場合は、指定されたツリー数に達するまで処理が続行されます。
項数に対する複数のあてはめ
このオプションを選択すると、複数の「1分岐あたりに抽出される項の数」に対してブートストラップ森が作成されます。レポート全体に表示される結果は、応答変数がカテゴリカルな場合は検証セットの「エントロピーR2乗」値が最大となっているモデルで、応答変数が連続尺度の場合は検証セットの「R2乗」値が最大となっているモデルです。
下限は、「1分岐あたりに抽出される項の数」で指定されている値です。上限は、次のオプションで指定されている値です。
項の最大数
1つの分岐に対して考慮される項の最大数。
調整計画テーブルを使用する
ブートストラップ森の設定値を含むデータテーブルを選択するためのウィンドウが表示されます。このような設定が含まれたデータテーブルのことを、JMPでは「調整計画テーブル」と呼んでいます。この調整計画テーブルには、指定したい各オプションにつき1つの列が含まれています。そして、1つ1つのブートストラップ森モデルの設定値を含んだものが、1行ずつで構成されています。調整計画テーブルでオプションが指定されていない設定は、デフォルト値が使用されます。
JMPは、指定された調整計画テーブルの1行につき1つのブートストラップ森モデルを作成します。調整計画テーブルで複数のモデルが指定されている場合、「検証セットでのモデル要約」レポートには各モデルのR2乗値がリストされます。レポート全体には、R2乗値が最も大きいモデルの結果が表示されます。
調整計画テーブルは実験計画の機能を使って作成してもよいでしょう。調整計画テーブルには、以下の列名をもつ列を含めてください(列の順番は任意です)。列名を英語で指定する場合には、大文字と小文字が区別されます。
– ツリー数(Number Trees)
– 項の数(Number Terms)
– ブートストラップの抽出割合(Portion Bootstrap)
– ツリーあたりの最小分岐数(Minimum Splits per Tree)
– ツリーあたりの最大分岐数(Maximum Splits per Tree)
– 分岐の最小サイズ(Minimum Size Split)
マルチスレッドをオフにする
このオプションを選択すると、すべての計算が1つのスレッドで実行されます。
乱数シード値
分析を再実行したときに同じ結果を再現したい場合は、ここにゼロ以外の乱数シード値を指定してください。「乱数シード値」はデフォルトでゼロ、つまり同じ結果を再現しないように設定されています。分析をスクリプトに保存するとき、ここに入力した乱数シード値がスクリプトに保存されます。