注意:为除“最大似然”之外的所有估计方法和除“分位数回归”之外的所有分布显示“解路径”报表。
“解路径”报表显示以下两个图:
• “解路径”图显示估计参数的值。
• 验证图显示对应于选定验证方法的验证统计量的值。
这两个图的水平尺度以统一尺度的参数估计值量值形式给出。这是 l1 范数,定义为统一尺度的参数估计值的绝对值之和,这些估计值是针对均值的模型估计值。(会从 l1 范数的计算中排除对应于截距、离散参数和零泛滥参数的估计值。)请注意以下几点:
• 具有大的 l1 范数值的估计值接近 MLE。
• 具有小的 l1 范数值的估计值被严重惩罚。
• 当 l1 范数减小时,调节参数的值增大。
两个图中的红色垂直实线都对应同一个 l1 范数值,该值是“原始预测变量的参数估计值”报表中显示的解的值。您可以在任意一个图中拖动红色垂直线顶部的箭头来更改罚值的大小,以指示新的当前模型。在验证图中,您还可以点击图中的任意位置来更改模型。拖动红色的垂直线指示新模型时,报表中的结果将相应更新以反映当前选择的模型。垂直虚线仍在最佳拟合模型处。您可以点击“验证图”旁边的重置解按钮,返回初始解的垂直红线和相应结果。对于某些验证方法,验证图提供用于标识可比模型的区域。请参见可比模型区域。
图 6.5 Diabetes.jmp 的“解路径”报表,使用 AICc 验证的 Lasso
有关“解路径”图的详细信息,请参见解路径图。有关验证图的详细信息,请参见验证图。
您可以选择“解路径”图中的路径以突出显示“参数估计值”报表中的相应项。该操作还选择数据表中的相应列。在任意一个报表中选择行将突出显示另一报表中的相应行和“解路径”图中的相应路径。按 Shift 键并点击可以选择多个路径或行。
使用“解路径”图的垂直轴标绘“参数估计值”。它们是统一尺度的参数估计值。推导出它们是为了用在使用中心化和统一尺度的预测变量表示的模型中(请参见中心化和统一尺度的预测变量的参数估计值)。
预测变量数小于观测值数时,“解路径”图通常显示估计值的整个范围(从零到 MLE 所给出的未惩罚拟合)。否则,该图扩展到接近未惩罚解的大小。从倒数第二个网格点跳到 MLE 解的幅度过大,导致直到倒数第二个网格点的解的详细信息模糊,这时会发生上述情况。出现这样的情况时,只要 MLE 不是最终解,将对“解路径”图重新调整尺度以便轴仅延伸到倒数第二个网格点。
“解路径”中的每个解都会在内部分配有一个解 ID。若您调节参数以选择最初显示的解之外的解,相应的解 ID 将显示在“保存脚本”选项所创建的脚本中。解 ID 是设置解 ID( N ) 命令中的值 N。保存解 ID 可确保能够在运行脚本时重新创建选定的解。
验证图显示统计量图,这些图描绘模型拟合在调节参数各值间的优劣程度,换言之,即在“统一尺度的参数估计值量值”各值间的优劣程度。标绘的统计图取决于选定的验证方法。对于每种验证方法,表 6.3 都列出了所标绘的统计量。所有验证方法都是值越小拟合效果越好。对于 K 重和留一法验证方法以及包含三个以上值的验证列,标绘的统计量是各重之间统一尺度的负对数似然值的均值。
表 6.3 中的统一尺度 -对数似然是负对数似然除以为其计算负对数似然的集内的观测数所生成的结果。
验证方法 | 验证统计量 | 调节参数区域 |
---|---|---|
K 重 | K 重统一尺度 -对数似然值的均值 | 2 |
保留 | 统一尺度 -对数似然 | 无 |
留一法 | 所有重的统一尺度 -对数似然值的均值 | 2 |
BIC | 训练数据的 BIC | 2 |
AICc | 训练数据的 AICc | 2 |
ERIC | 训练数据的 ERIC | 2 |
具有两个或三个值的验证列 | 统一尺度 -对数似然 | 无 |
K > 3 的值的验证列 | K 重统一尺度 -对数似然值的均值 | 2 |
尽管估计某个模型是最佳模型,但也可能存在与该选择相关的不确定性。竞争模型可能拟合得几乎一样好,并且可能包含有用信息。对于 AICc、BIC、K 重和留一法验证方法以及包含三个以上值的验证列,验证图提供标识可能值得考虑的竞争模型的区域。不推荐使用落在这些区域之外的模型。请参见 Burnham and Anderson (2004) 和 Burnham et al. (2011)。
区域是验证统计量值的区间。区域标绘为跨整个水平轴的绿色或黄色矩形。若模型的验证统计量的值落在某区域内,则该模型会落在该区域内。您可以拖动红色垂直实线来探索各区域内的解。请参见当前模型指示符。
图 6.6 显示了 Diabetes.jmp 的验证图,其垂直轴展开以显示这两个区域。
图 6.6 Diabetes.jmp 的验证图,使用 AICc 验证的 Lasso
对于这些验证方法,图中显示两个区域。用 V最佳来表示最佳解的验证 BIC、AICc 和 ERIC 值。
• 绿色区域标识出这样一些模型,有强有力的证据表明会有一个模型与最佳模型一样好。绿色区域是区间 [V最佳, V最佳+4]。
• 黄色区域标识出这样一些模型,没有什么证据表明会有一个模型与最佳模型一样好。黄色区域是区间 [V最佳+4, V最佳+10]。
对于这些验证方法,图中显示两个区域。在最佳模型解的位置,对每个验证集都计算统一尺度的负对数似然函数。将这些值的标准误差表示为 LSE。用 L最佳表示最佳解的统一尺度的负对数似然。
• 绿色区域标识出这样一些模型,有强有力的证据表明会有一个模型与最佳模型一样好。绿色区域是区间 [L最佳, L最佳+LSE]。
• 黄色区域标识出这样一些模型,没有什么证据表明会有一个模型与最佳模型一样好。黄色区域是区间 (L最佳+LSE, L最佳+2.5*LSE]。