本例说明如何在 Liver Cancer.jmp 样本数据表中构建二项响应严重性的预测模型。
1. 选择帮助 > 样本数据库,然后打开 Liver Cancer.jmp。
2. 选择分析 > 拟合模型。
3. 从“选择列”列表中选择严重性,然后点击 Y。
4. 从 BMI 一直选到黄疸,然后点击宏 > 析因次数。
这会将最高达到 2 次(次数框中的默认值)的所有项都添加到模型中。
5. 从“特质”列表中选择广义回归。
“分布”列表自动显示“二项”分布。这是在 Y 为二值响应并且建模类型为“名义型”时唯一可用的分布。
6. 点击运行。
显示的“广义回归”报表包含“模型比较”报表、“模型启动”控制面板和“Logistic 回归”报表。请注意,默认估计方法是“Lasso”。
7. 选择弹性网络作为“估计方法”。
8. 选择自适应框。
9. 点击执行。
随即显示“使用‘AICc 验证’的‘二项’自适应‘弹性网络’”报表。“解路径”如图 7.3 所示。
图 7.3 解路径图
具有非零系数的项的路径用蓝色显示。最佳参数值大幅收缩,远小于MLE。右侧的验证图指示有几个模型可以认定为与最佳模型一样好。要查看这些模型,请在黑线位于绿色区域中的区域周围滑动红色的垂直条。
10. 点击“使用‘AICc 验证’的‘二项’自适应‘弹性网络’”旁边的红色小三角,然后选择选择清零项选项。
系数估计值为零的 16 个项在“原始预测变量的参数估计值”报表中突出显示。“效应检验”报表将这些项标明为“已删除”。
“效应检验”报表还显示在 0.05 水平下没有显著的项。但是,时间*标记交互作用具有很小的 p 值 (0.0626),时间效应具有很小的 p 值 (0.1458)。
11. 点击“使用‘AICc 验证’的‘二项’自适应‘弹性网络’”旁边的红色小三角,然后选择刻画器 > 刻画器。
图 7.4 时间短,严重性 = High 的概率对应的刻画器
检查“预测刻画器”以查看时间和时间*标记交互作用如何影响严重性。
注意:预测变量肝炎不显示在该刻画器中,因为它未显示在任何活跃(非零)项中。由于标记和黄疸均显示在活跃的交互作用项中,所以它们会显示在该刻画器中,尽管作为主效应它们并不活跃。
12. 从左向右移动时间的红色虚线以查看它与标记的交互作用(图 7.4 和图 7.5)。对于具有小的确诊时间值的进入研究的患者,标记对严重性的影响很小。但是对于确诊时间更长的进入研究的患者,标记很重要。对于那些患者,常规标记指示高严重性的概率更低。
图 7.5 时间长,严重性 = High 的概率对应的刻画器