Boston Housing.jmp 样本数据表包含可能与住房价格中位数相关的 13 个因子的数据。您使用神经网络拟合模型。由于神经网络不适用于正式的假设检验,所以不能借助这些检验来评估哪些变量在预测响应时很重要。不过,您可以使用“评估变量重要性”刻画器选项来评估变量重要性。
请注意,您的结果虽然可能不同于下面所示的结果,但应该与其相似。本例中有两个随机变异来源。拟合神经网络时,使用了 k 重交叉验证。这会将数据随机划分为训练集和验证集。此外,还使用 Monte Carlo 抽样来计算因子重要性指标。
1. 选择帮助 > 样本数据库,然后打开 Boston Housing.jmp。
2. 选择分析 > 预测建模 > 神经。
3. 从“选择列”列表中选择中位数,然后点击 Y,响应。
4. 从“选择列”列表中选择其他所有列,然后点击 X,因子。
5. 点击确定。
6. 在“神经模型启动”面板中,从“验证方法”下的列表中选择 K 重。
选择“K 重”后,“折数”默认为 5。
7. (可选)在“随机种子”旁边输入 123。
注意:由于在神经网络模型中是随机选择验证集,结果可能有所不同。输入上面的种子,这样您可以重现本例中所示的结果。
8. 点击执行。
9. 点击“模型 NTanH(3)”旁边的红色小三角并选择刻画器。
“预测刻画器”显示在报表最底部。请留意因子顺序以便将来比较。
由于因子之间相关,您可以通过将“非独立再抽样输入”选作用于评估变量重要性的抽样方法将这种相关性考虑在内。
10. 点击“预测刻画器”红色小三角并选择评估变量重要性 > 非独立再抽样输入。
随即显示“变量重要性: 非独立再抽样输入”报表。检查“预测刻画器”单元格是否已经按照报表中的“总效应”指标的量值重新排序。在图 3.26 中,检查“总效应”重要性指标是否将房间数和低收入者标识为对预测响应影响最大的因子。
图 3.26 “非独立再抽样输入”报表
您可能会有兴趣将假定因子相关时获取的重要性指标与假定因子独立时获取的重要性指标进行比较。
11. 点击“预测刻画器”红色小三角并选择评估变量重要性 > 独立再抽样输入。
再抽样输入选项在本例中有意义,因为涉及的分布不是均匀分布。“变量重要性: 独立再抽样输入”报表显示在图 3.27 中。检查标识为对预测值影响最大的两个因子是否为低收入者和高速公路。
图 3.27 “独立再抽样输入”报表