“Bootstrap 森林法”平台通过对许多决策树的预测响应值求平均值来预测响应值。每棵树都在训练数据的 Bootstrap 样本上增长。Bootstrap 样本是有放回的随机观测样本。此外,在决策树的每个拆分中都对预测变量抽样。使用分割模型中所述的递归分割方法拟合决策树。
训练集的拟合过程如下所示:
1. 对于每棵树,选择观测的 Bootstrap 样本。
2. 使用递归分割拟合各个决策树,如下所示:
‒ 为每个拆分选择随机的一组预测变量。
‒ 继续拆分,直到满足在“Bootstrap 森林法规格”窗口中指定的停止规则。
3. 重复执行步骤 1和步骤 2,直到达到在“Bootstrap 森林法规格”窗口中指定的树个数或直到出现“提前停止”。
对于单个树,在抽取用于拟合树的观测的 Bootstrap 样本时是有回放的。您可以指定要抽样的观测比例。若指定抽取 100% 的观测,由于抽样有回放,未使用的观测的预期比例为 1/e,即大约 36.8%。对于每一棵树,这些未使用的观测都称为袋外观测。拟合树中使用的观测称为袋内观测。对于连续响应,“Bootstrap 森林法”平台提供用于袋外观测误差率的测度,称为袋外误差。
对于连续响应,某观测的预测值是其在单个树集合中的预测值的平均值。对于分类响应,某观测的预测概率是其在单个树集合中的预测概率的平均值。该观测分类到其预测概率最高的水平中。
有关 Bootstrap 森林法的详细信息,请参见 Hastie et al. (2009)。