Bootstrap 聚合 (Bagging) 是一种提高预测性能、同时也能很好揭示预测可靠性的技术。Bagging 对于不稳定的方法(包括神经网络、分类树和回归树)特别有用。
Bagging 通过从原始数据放回抽样来创建 M 个训练数据集。所有训练数据集的大小与原始数据集的大小相同。对于每个训练数据集,使用分析平台拟合模型并生成预测。因此,对于原始数据集中的每个观测总共有 M 个预测。最终预测是 M 个预测的平均值。
在很多分析平台中提供 Bagging 功能。要使用 Bagging,请从“预测刻画器”红色小三角菜单中选择保存 Bagged 预测。将显示一个窗口,其中包含 Bagging 的以下选项:
Bootstrap 样本数
设置要再抽样数据并构建模型的次数。次数较大的能得到更精确的预测结果。默认情况下,Bootstrap 样本数为 100。
随机种子
设置一个随机种子,您可以在以后运行 Bagging 分析时重新输入它以复制当前结果。默认情况下,不设置种子。
非整数权重
执行 Bayesian Bagging 分析。在每次 Bootstrap 迭代中,给每个观测分配一个非零权重。执行预测的模型使用这个加权的观测。默认情况下,不选择“非整数权重”选项,只执行简单 Bagging 分析。
提示:若分析中使用的观测数很小或您关注 Logistic 回归设置中的分离问题,请使用“非整数权重”选项。
假定选择“非整数权重”。对于每次 Bootstrap 迭代,为报表中使用的每个观测分配一个非零权重。这些权重之和为模型中使用的观测数 n。有关如何计算并使用权重的详细信息,请参见计算分式权重。
保存预测公式
对于每个 Bagged 预测,该选项保存用于在列属性中生成该预测的公式。仅在提供 Bagging 的一部分分析平台中可以使用该选项。
注意:若“保存预测公式”不可用,将显示一个注释,说明将仅保存预测值。
Bagging 自动在原始数据表中创建新列。将所有 M 组 Bagged 预测保存为隐藏的列。最终预测保存在名为“预测公式-<列名> Bagged 均值”的列中。最终预测的标准差保存在名为“<列名> Bagged 标准差”的列中。Bagged 均值的标准误差保存在名为“标准误差-<列名> Bagged 均值”的列中。该标准误差由标准差除以 得到。在此处,<列名> 标识报表中的 Bagged 列。
从标准误差可以判断预测的精度。标准误差很小指示该观测的预测精度高。有关 Bagging 的详细信息,请参见 Hastie 等人 (2009)。
Bagging 列