起動ウィンドウで[OK]を選択すると、「勾配ブースティングの設定」というウィンドウが開きます。
図6.7 ブースティングツリーの設定ウィンドウ
層の数
最終的なツリーに含める層の最大数。
ツリーあたりの分岐数
各層における分岐数。
学習率
0 < r £ 1の範囲で設定します。学習率が1に近い値だと、最終モデルへの収束が速くなりますが、データにオーバーフィット(過学習)しやすくなります。「層の数」に小さい数を指定した場合は、学習率を1に近い値に設定してください。通常、学習率は0.01~0.1の小さな値に設定し、モデルの収束を遅らせます。学習率に小さな値を指定したほうが、前の層とは異なる分岐を、後に続く層が探し出すようになります。
オーバーフィットペナルティ
(カテゴリカルな目的変数にのみ使用可能。)予測確率が0になるのを防ぐバイアスパラメータ。オーバーフィットペナルティを参照してください。
分岐の最小サイズ
分岐候補を求めるのに必要とするオブザベーションの最低数。
分岐および学習率に対する複数のあてはめ
このオプションを選択すると、ツリーあたりの分岐数(増分は整数)と学習率(増分は0.1)のすべての組み合わせに対してブースティングツリーが作成されます。
この組み合わせの下限には、「ツリーあたりの分岐数」と「学習率」に指定された値が使われます。組み合わせの上限には、以下で指定された値が使われます。
ツリーあたりの最大分岐数
ツリーあたりの分岐数の上限。
最大学習率
学習率の上限。
調整計画テーブルを使用する
ブースティングツリーの設定値を含むデータテーブルを選択するためのウィンドウが表示されます。このような設定が含まれたデータテーブルのことを、JMPでは「調整計画テーブル」と呼んでいます。この調整計画テーブルには、指定したい各オプションにつき1つの列が含まれています。そして、1つ1つのブースティングツリーモデルの設定値を含んだものが、1行ずつで構成されています。調整計画テーブルでオプションが指定されていない設定は、デフォルト値が使用されます。
JMPは、指定された調整計画テーブルの1行につき1つのブースティングツリーモデルを作成します。調整計画テーブルで複数のモデルが指定されている場合、「検証セットでのモデル要約」レポートには各モデルのR2乗値がリストされます。レポート全体には、R2乗値が最も大きいモデルの結果が表示されます。
調整計画テーブルは実験計画の機能を使って作成してもよいでしょう。調整計画テーブルには、以下の列名をもつ列を含めてください(列の順番は任意です)。列名を英語で指定する場合には、大文字と小文字が区別されます。
– 層の数(Number of Layers)
– ツリーあたりの分岐数(Splits per Tree)
– 学習率(Learning Rate)
– 分岐の最小サイズ(Minimum Size Split)
– 行の標本抽出率(Row Sampling Rate)
– 列の標本抽出率(Column Sampling Rate)
行の標本抽出率
各層で抽出する学習セットの行の割合。
注: 応答変数がカテゴリカルな場合は、学習セットからの無作為抽出には層化抽出が使われます。
列の標本抽出率
各層で抽出する説明変数の列数の割合。
マルチスレッドをオフにする
このオプションを選択すると、すべての計算が1つのスレッドで実行されます。
乱数シード値
分析を再実行したときに同じ結果を再現したい場合は、ここにゼロ以外の乱数シード値を指定してください。「乱数シード値」はデフォルトでゼロ、つまり同じ結果を再現しないように設定されています。分析をスクリプトに保存するとき、ここに入力した乱数シード値がスクリプトに保存されます。
早期打ち切り
このオプションを選択すると、層を追加しても適合度統計量が改善されなくなれば処理が打ち切られます。選択しなかった場合は、指定された層数に達するまで処理が続行されます。このオプションは、検証データを使用している場合のみ表示されます。