Diabetes.jmp 样本数据表中的数据包括 442 名糖尿病患者的测量值。关注的响应是 Y,即在进行基线测量一年后测量的疾病进展数据。对十个被认定为与疾病进展有关的变量也测量了基线值。本例说明如何使用广义回归方法来生成预测模型。
1. 选择帮助 > 样本数据库,然后打开 Diabetes.jmp。
2. 选择分析 > 拟合模型。
3. 从“选择列”列表中选择 Y,然后点击 Y。
4. 从年龄一直选到葡萄糖,然后点击宏 > 析因次数。
这会将最高达到 2 次(次数框中的默认值)的所有项都添加到模型中。
5. 从“选择列”列表中选择验证,然后点击验证。
6. 从“特质”列表中选择广义回归。
7. 点击运行。
显示的“广义回归”报表包含“模型比较”报表、“模型启动”控制面板和一个“使用‘验证列’验证的‘正态标准最小二乘法’”报表。
在“模型启动”控制面板中,请注意以下事项:
‒ “响应分布”设置为“正态”,因为您在“拟合模型”启动窗口中将“正态”指定为分布。
‒ 默认“估计方法”是“Lasso”。
‒ 因为您在“拟合模型”窗口中指定了验证列,所以“验证方法”设置为“验证列”。
8. 点击执行。
随即显示“使用‘验证列’验证的‘正态’‘Lasso’”报表。“解路径”报表(图 6.2)显示参数估计值图和统一尺度的负对数似然图。当统一尺度的参数估计值量值减小时收缩量增加。图最右侧的估计值是最大似然估计值。红色的垂直线指示验证准则选择的那些参数值,在该示例中的保留样本由验证列定义。
图 6.2 解路径图
9. 点击“使用‘验证列’验证的‘正态’‘Lasso’”旁边的红色小三角,然后选择选择非零项。
该选项突出显示“原始预测变量的参数估计值”报表(图 6.3)中的非零项和它们在“解路径”图中的路径。同时选定数据表中的对应列。请注意,在 55 个参数估计值中,只有 11 个是非零的。同时还估计了正态分布的尺度参数 (sigma),它显示在“原始数据的参数估计值”报表底部的单独表中。请注意,这 55 个参数估计值并不是全部都显示在图 6.3 中。
图 6.3 “原始预测变量的参数估计值”报表的一部分
要保存预测公式,请点击“使用‘验证列’验证的‘正态’‘Lasso’”报表旁边的红色小三角,然后选择保存列 > 保存预测公式。