Liver Cancer.jmp 样本数据表包含 136 名患者的肝癌结节计数值。它还包含以下 6 个有可能相关的变量的测量值:BMI、年龄、时间、标记、肝炎和黄疸。这些变量在数据表的每一列的“注释”列属性中说明。要查看“注释”列属性,请右击某个列名称,选择“列信息”,然后在“列属性”下选择“注释”。
本例使用 6 个预测变量构建结节计数的预测模型。使用 Poisson 分布对结节计数建模。
1. 选择帮助 > 样本数据库,然后打开 Liver Cancer.jmp。
2. 选择分析 > 拟合模型。
3. 从“选择列”列表中选择结节计数,然后点击 Y。
4. 从 BMI 一直选到黄疸,然后点击宏 > 析因次数。
这会将最高达到 2 次(次数框中的默认值)的所有项都添加到模型中。
5. 从“选择列”列表中选择验证,然后点击验证。
6. 从“特质”列表中选择广义回归。
7. 从“分布”列表中选择 Poisson。
8. 点击运行。
显示的“广义回归”报表包含“模型比较”报表、“模型启动”控制面板和一个“使用‘验证列’验证的‘Poisson 最大似然’”报表。请注意,默认估计方法是“Lasso”。
9. 选择自适应框。
10. 点击执行。
11. 点击“使用‘验证列’验证的‘Poisson’自适应‘Lasso’”旁边的红色小三角,然后选择选择非零项。
“解路径”如Figure 7.1所示。突出显示具有非零系数的项的路径。想象一下解路径在图上从右向左移动,解在逐渐远离 MLE 的位置收缩。很多项具有很早就收缩到零的路径。
“解路径”图中的垂直轴表示标准化的预测变量的参数估计值。红色的垂直线指示在最佳收缩处的值,该值由交叉验证决定。在此点上,11 个项具有非零系数。请注意,红色的垂直线指示“验证集”中最小的统一尺度 − 对数似然值。
图 7.1 突出显示了非零项的自适应 Lasso 拟合的解路径
“原始预测变量的参数估计值”报表(Figure 7.2)显示非中心化和未统一尺度的数据的参数估计值。突出显示具有非零参数估计值的 11 项。其中包括交互作用效应。在数据表中,选择全部 6 个预测变量列,因为每个预测变量列显示在具有非零系数的项中。
在“效应检验”报表中,具有零系数估计值的 10 个效应标明为“已删除”。“效应检验”报表指示在 0.05 水平下只有一个效应是显著的:年龄*标记交互作用。
12. 在“原始预测变量的参数估计值”报表中,点击 (年龄 - 56.3994)*标记[0-1] 所对应的行。
该操作将在“解路径”图中突出显示该效应的路径并在数据表中选择年龄和标记两列。
图 7.2 突出显示非零项的参数估计值报表
13. 点击“使用‘验证列’验证的‘Poisson’自适应‘Lasso’”旁边的红色小三角,然后选择保存列 > 保存预测公式和保存列 > 保存方差公式。
以下两列添加到数据表:节点计数预测公式和节点计数方差。
14. 在数据表中,右击列标题并选择公式以查看公式。或者,点击列面板中列名称右侧的加号。
保存预测公式列中的预测公式将指数函数应用到模型的估计线性部分。使用相同公式给出“结节计数”方差中的预测方差公式,因为 Poisson 分布的方差等于其均值。