“Bootstrap 森林法”平台通过对许多决策树的预测响应值求平均值来预测响应值。每棵树都在训练数据的 Bootstrap 样本上增长。Bootstrap 样本是一个放回抽样的随机观测样本。此外,在决策树的每个拆分中都对预测变量抽样。使用“分割模型”中所述的递归分割方法拟合决策树。
以下是训练集的拟合过程:
1. 对于每棵树,选择观测的 Bootstrap 样本。
2. 使用递归分割拟合各个决策树。
‒ 为每个拆分选择随机的一组预测变量并随机排列这组预测变量的顺序。
‒ 继续拆分,直到满足在“Bootstrap 森林法规格”窗口中指定的停止规则。
3. 重复执行第 1 步和第 2 步,直到达到在“Bootstrap 森林法规格”窗口中指定的树个数或直到出现“提前停止”。
对于单个树,在抽取用于拟合树的观测的 Bootstrap 样本时是有放回的。您可以指定要抽样的观测比例。若指定抽取 100% 的观测,由于抽样有放回,未使用的观测的预期比例为 1/e,即大约 36.8%。对于每一棵树,这些未使用的观测都称为袋外观测。拟合树中使用的观测称为袋内观测。对于连续响应,“Bootstrap 森林法”平台提供用于袋外观测误差率的测度,称为袋外误差。
对于连续响应,某观测的预测值是其在单个树集合中的预测值的平均值。对于分类响应,某观测的预测概率是其在单个树集合中的预测概率的平均值。该观测分类到其预测概率最高的水平中。
有关 Bootstrap 森林法的详细信息,请参见 Hastie et al. (2009)。