本例演示针对一个小型数据表的“分式权重”(Bayes Bootstrap) 选项的优点。数据中包含一个响应 Y,该响应是针对七种不同土壤类型中的每一种的三个样本测量的结果。一位科学家想要查明 wabash 土壤类型的响应均值的置信区间。
由于每种土壤类型仅有三个观测,简单 bootstrap 有可能从 bootstrap 样本中排除全部三个 wabash 观测。而“分式权重”选项可确保在所有 bootstrap 样本中都能表示每种土壤类型的所有观测。
这位科学家检查了使用两种 bootstrap 方法得到的 wabash 样本均值的分布:
1. 选择帮助 > 样本数据库,然后打开 Snapdragon.jmp。
2. 选择分析 > 以 X 拟合 Y。
3. 选择 Y 并点击 Y,响应。
4. 选择土壤并点击 X,因子。
5. 点击确定。
6. 点击“‘土壤-Y’单因子分析”旁边的红色小三角并选择均值/方差分析。
7. 在单因子方差分析均值报表中,右击均值列并选择 Bootstrap。
8. 键入 1000 作为 Bootstrap 样本数的值。
9. (可选)要匹配Figure 11.7 中的结果,请为随机种子键入 12345。
10. 点击确定。
图 11.7 简单 Bootstrap 的 Bootstrap 结果
Figure 11.7 中的缺失值表示 bootstrap 迭代,在这些迭代中,给定土壤类型的所有观测都未选定用于 bootstrap 样本。
11. 选择分析 > 分布。
12. 选择 wabash,然后点击 Y,列。
13. 点击确定。
图 11.8 简单 Bootstrap 的 wabash 均值分布
Figure 11.8 显示来自简单 bootstrap 分析的 wabash 均值的分布。请注意以下事项:
‒ “汇总统计量”报表指示包含 wabash 的 bootstrap 均值的行数为 N = 961。尽管您执行了 1,000 次迭代,有 39 个 bootstrap 样本未包含 wabash 三个观测中的任何一个观测。
‒ 样本均值的直方图不平滑,在两个极值处出现了峰值。wabash 的三个值为 38.2、37.8 和 31.9。分布低端出现的峰值来自仅包含值 31.9 的 bootstrap 样本。高端出现的峰值来自包含 38.2 和 37.8 中的一个或两个值的 bootstrap 样本。
下一步,使用“分式权重”(Bayes Bootstrap) 选项避免获取 bootstrap 样本中的缺失值,并且平滑 bootstrapped 均值分布。
1. 在“单因子分析”报表中,右击单因子方差分析均值报表中的均值列,然后选择 Bootstrap。
2. 键入 1000 作为 Bootstrap 样本数的值。
3. (可选)要匹配Figure 11.9 中的结果,请为随机种子键入 12345。
4. 选择分式权重选项。
5. 点击确定。
图 11.9 Bayes Bootstrap 的 Bootstrap 结果
Bayes Bootstrap 结果表中没有缺失值。每个 bootstrap 样本中都包含 Snapdragon.jmp 数据表中的全部 21 行,这些行的 bootstrap 权重各异。
6. 选择分析 > 分布。
7. 选择 wabash,然后点击 Y,列。
8. 点击确定。
图 11.10 Bayes Bootstrap 的 wabash 均值分布
Bayes Bootstrap 为 wabash 样本均值生成了平滑得多的分布。全部 1,000 个 bootstrap 样本都包含 wabash 的三个观测。对于每次迭代,wabash 样本均值都使用不同的分式权重计算。
“Bootstrap 置信限”报表显示均值的 95% 置信区间介于 32.6396 到 37.8168 之间。