「ブートストラップ森」プラットフォームは、複数のディシジョンツリー(決定木)における応答の予測値を平均することによって応答を予測します。各ディシジョンツリーは、学習データからのブートストラップ標本から求められます。ブートストラップ標本は、元データから無作為に復元抽出したものです。無作為抽出されたデータにディシジョンツリーをあてはめていく処理を何度も行います。さらに、各ディシジョンツリーの各分岐において、説明変数も無作為抽出されます。各ディシジョンツリーは、パーティションで説明している手法によって求められます。
「ブートストラップ森」では、現在の学習セットに対して以下の手順によってモデルをあてはめます。
1. 学習セットからブートストラップ標本を抽出します。
2. その抽出された標本に対して、ディシジョンツリーをあてはめます。
– この際、各分岐において、説明変数を無作為に選択します。
– 「ブートストラップ森の指定」ウィンドウで指定されている停止ルールの条件が満たされるまで、分岐を続けます。
3. 「ブートストラップ森の指定」ウィンドウで指定されているツリー数に達するまで、または早期打ち切りが発生するまで、ステップ1とステップ2を繰り返します。
ブートストラップ標本の抽出には、復元抽出が使用されます。抽出されるオブザベーションの割合は指定できます。100%のオブザベーションが抽出されるように指定した場合は、各復元抽出において1度も抽出されないオブザベーションの割合は、およそ1/e(約36.8%)です。各抽出において、これらの抽出されなかったオブザベーションは「バッグ外標本(out-of-bag)」と呼ばれます。逆に、1度以上、抽出されたオブザベーションは「バッグ内標本(in-bag)」と呼ばれます。応答変数が連続尺度である場合、「ブートストラップ森」プラットフォームはバッグ外標本から計算される統計量(「バッグ外誤差(out-of-bag error)」という)も求めます。
応答変数が連続尺度である場合、あるオブザベーションにおける最終的な予測値は、個々のディシジョンツリーにおける予測値をまとめて平均したものです。応答変数がカテゴリカルな場合、最終的な予測確率は、個々のツリーにおける予測確率をまとめて平均したものです。そして、各データ行は、その最終的な予測確率が最も高い水準に分類されます。
ブートストラップ森の詳細については、Hastie et al.(2009)を参照してください。