该图形的纵坐标表示响应。横坐标对应的是按拆分节点排列的观测值。对于每个节点,黑色的水平线表示平均响应。在每个拆分内,都有一个由红线或蓝线表示的处理子拆分。这些线分别表示该拆分内两个处理组各自的响应均值。处理列的值排序决定了这些线的放置顺序。拆分节点时,图形会随之更新并在水平轴下方显示拆分,同时会添加垂直线用于分隔这些拆分。
在图形下方是控制按钮:拆分、剪除和执行。仅当存在验证集时才显示“执行”按钮。除此之外,还显示了“处理”列的名称及其两个水平,称之为“处理1”和“处理2”。若“处理”列包含两个以上的水平,除了将第一个水平视为单独的水平外,其他所有水平统一合并为“处理2”。
“处理”列信息的右侧是一个报表,它显示与预测有关的汇总值。(请记住预测不是提升建模的目标。)随着节点的拆分报表会相应更新。若使用验证集,则显示训练集和验证集的值。
R 方
与提升树关联的回归模型的 R 方。请注意回归模型包括与处理列的交互作用。与 R 方越接近 0 相比,R 方越接近 1 表示数据拟合效果更好。
注意:较低的 R 方值表明可能有一些模型中不包含的变量可以解释无法解释的变异。不过,若数据受到大量内在变异影响,即便提升模型是有效的,R 方值也可能比较低。
RMSE
与树关联的回归模型的均方根误差 (RMSE)。仅为连续响应提供 RMSE。请参见《拟合线性模型》。
数目
观测数。
拆分数
发生拆分的次数。
AICc
使用相关的回归模型计算出的校正的 Akaike 信息准则 (AICc)。仅为连续响应提供 AICc。请参见《拟合线性模型》中的似然、AICc 和 BIC。
决策树显示了构建提升模型过程中对变量进行的拆分。图 6.5 中显示了一个使用 Hair Care Product.jmp 样本数据表的示例。每个节点包含以下信息:
处理
显示处理列的名称,它包含两个水平。
比率
(仅对两水平分类响应显示。)对于每个处理水平,在该节点中响应者占测试对象的比例。
均值
(仅对连续响应显示。)对于每个处理水平,该节点中测试对象的平均响应。
计数
在指定的处理水平上该节点中的测试对象数。
t 比
在该节点中测试对象在各个处理水平上对响应差异进行显著性检验的 t 比。若响应是分类型,该检验将视其为连续(值 0 和 1)。
处理差异
各个处理水平上响应均值的差异,这是以下列条件为假定前提的提升:
‒ 处理列的值排序中的第一个水平表示处理。
‒ 响应变量也定义成差异值越大处理的影响越大。
LogWorth
基于给定节点进行下一步拆分的 Logworth 的值。
图 6.5 第一次拆分的节点
每个节点还包含一个提供更多信息的“候选项”报表:
项
模型项。
LogWorth
对给定项的所有可能拆分中最大的 Logworth 值。拆分对应的 Logworth 通过对调整 p 值取 -log10 来计算。
F 比
当响应为连续型时,会提供线性回归模型中与交互作用项相关的 F 比。回归模型中指定响应为处理、二元拆分及两者交互作用的线性函数。响应为分类型时,则会提供名义型 Logistic 模型中交互作用项的卡方值。
Gamma
当响应为连续型时,该值为在计算 F 比时使用的线性回归模型中的交互作用项的系数。当响应为分类型时,该值反映了根据 Firth 调整的对数优势比构造的交互作用估计值。
截断点
若模型项为连续型,则该点为拆分点;若模型项为分类型,该点描述了第一个拆分节点(左节点)的内容。