Bootstrap 聚合 (Bagging) 是一种提高预测性能、同时也能很好揭示预测可靠性的技术。Bagging 对于不稳定的方法(包括神经网络、分类树和回归树)特别有用。
Bagging 通过从原始数据放回抽样来创建 M 个训练数据集。所有训练数据集的大小与原始数据集的大小相同。对于每个训练数据集,使用分析平台拟合模型并生成预测。因此,对于原始数据集中的每个观测总共有 M 个预测。最终预测是 M 个预测的平均值。
在很多分析平台中提供 Bagging 功能。要使用 Bagging,请从“预测刻画器”红色小三角菜单中选择保存 Bagged 预测。将显示一个窗口,其中包含 Bagging 的以下选项:
假定选择“非整数权重”。对于每次 Bootstrap 迭代,为报表中使用的每个观测分配一个非零权重。这些权重之和为模型中使用的观测数 n。有关如何计算并使用权重的详细信息,请参见《基本分析》手册中的“Bootstrapping”一章中第 314 页的“计算分式权重”。
Bagging 自动在原始数据表中创建新列。将所有 M 组 Bagged 预测保存为隐藏的列。最终预测保存在名为“预测公式-<列名> Bagged 均值”的列中。最终预测的标准差保存在名为“<列名> Bagged 标准差”的列中。Bagged 均值的标准误差保存在名为“标准误差-<列名> Bagged 均值”的列中。该标准误差由标准差除以 得到。在此处,<列名> 标识报表中的 Bagged 列。
图 3.17 Bagging 列