宽数据是一个术语,用于描述预测因子多于观测的数据集。对于宽数据,传统的回归方法并不实用。包含变量选择的回归方法支持您在这些情况下拟合回归模型。在本例中,您可以比较三个变量选择程度各不相同的模型。
1. 选择帮助 > 样本数据文件夹,然后打开 Prostate Cancer.jmp。
2. 选择分析 > 拟合模型。
3. 从“选择列”列表中选择状态,然后点击 Y。
由于这是一个“名义型”响应列,“特质”更改为“名义型 Logistic”并且显示“目标水平”选项。该选项的默认值为 CCD,因为这是在数据表的“目标水平”列属性中指定的值。
4. 从“特质”列表中选择广义回归。
“分布”列表自动显示“二项”分布。这是在 Y 为二值响应并且建模类型为“名义型”时唯一可用的分布。
5. 从“选择列”列表中选择蛋白质列组并点击添加。
这会将列组中的所有 667 列添加到模型中。
6. 点击运行。
显示的“广义回归”报表包含“模型启动”控制面板。由于预测变量数大于观测数,因此没有初始“Logistic 回归”模型拟合。
7. 选择弹性网络作为“估计方法”。
8. 点击“高级控件”旁边的灰色展开图标。
图 7.8 高级控件
9. 选择绿色区域中最小作为“最初显示的解”。
10. 点击执行。
图 7.9 “绿色区域中最小”模型
“解路径”显示被视为与最小 AICc 模型相当的最小模型,其中最小模型是指参数最少的模型。
11. 点击“使用‘AICc 验证’的‘二项弹性网络’”旁边的灰色展开图标。
12. 点击“模型启动”旁边的灰色展开图标。
13. 选择最佳拟合作为“最初显示的解”。
14. 点击执行。
图 7.10 “最佳拟合”模型
“解路径”显示最佳拟合模型,其中最佳拟合表示具有最小 AICc 值的拟合。
15. 点击“使用‘AICc 验证’的‘二项弹性网络’”旁边的灰色展开图标。
16. 点击“模型启动”旁边的灰色展开图标。
17. 选择绿色区域中最大作为“最初显示的解”。
18. 点击执行。
图 7.11 “绿色区域中最大”模型
“解路径”显示被视为与最小 AICc 模型相当的最大模型,其中最大模型是指参数最多的模型。
19. 点击“使用‘AICc 验证’的‘二项弹性网络’”旁边的灰色展开图标。
图 7.12 “模型比较”表
“模型比较”报表显示三个模型。您可以使用“非零参数”列标识每个模型的大小。随着模型中参数个数的增加,“广义 R 方”值增加。由于这些模型全部位于绿色区域,因此有强有力的证据表明,其中任何一个模型都与最佳模型一样好。