在启动窗口中选择确定后,“梯度提升树规格”窗口随即显示。
图 6.7 “提升树规格”窗口
层数
要包含在最终树中的最大层数。
每树拆分数
每层的拆分数。
学习率
0 < r ≤ 1 之类的数字。学习率接近 1 会导致最终树收敛更快,但也更容易过度拟合数据。当指定小的“层数”时,可以使用接近 1 的学习率。学习率通常是介于 0.01 和 0.1 之间的一个小数,它可以减慢模型收敛的速度。这样可以保留机会,以便之后的层可以使用与之前层不同的拆分。
过拟合惩罚
(仅可用于分类响应。)一个偏倚参数,该参数可帮助防止拟合概率等于 0。请参见过拟合惩罚。
最小拆分大小
候选拆分所需的最小观测数。
在数个拆分和学习率下进行多个拟合
若选定,则可以为“每树拆分数”(以整数递增)与“学习率”(以 0.1 递增)的每个组合创建一个提升树。
组合的下限由“每树拆分数”与“学习率”选项指定。组合的上限由以下选项指定:
每树最大拆分数
每树拆分数的上限。
最大学习率
学习率的下限。
使用调节设计表
打开一个窗口,您可以在其中选择包含某些调节参数的数据表(称为调节设计表)。调节设计表针对您想要指定的每个选项都有一列,并且包含一行或多行,每行都表示一个提升树模型设计。若未在调节设计表中指定任何选项,则使用默认值。
对于表中的每行,JMP 都使用指定的调节参数创建一个提升树模型。若在调节设计表中指定了不止一个模型,则“模型验证集汇总”报表列出每个模型的 R 方值。“提升树”报表显示具有最大 R 方值的模型的拟合统计量。
您可以使用“实验设计”工具创建调节设计表。提升树调节设计表可以包含以下以任意顺序排列的不区分大小写的列:
‒ 层数
‒ 每树拆分数
‒ 学习率
‒ 最小拆分大小
‒ 行抽样率
‒ 列抽样率
行抽样率
为每层抽样的训练行的比例。
注意:若响应为分类响应,则使用分层随机抽样对训练行抽样。
列抽样率
为每层抽样的预测变量列的比例。
禁止多线程
若选定,则在单个线程上执行所有计算。
随机种子
指定非零数值随机种子,以便将来启动该平台时重现结果。默认情况下,“随机种子”设置为零,即不生成可重现的结果。将分析保存到脚本中时,您输入的随机种子将保存到该脚本中。
提前停止
若选定,则提升过程会在更多层不会改善验证统计量时停止拟合更多层。若未选定,则提升过程会继续,直到达到指定的层数。仅当使用验证时,该选项才显示。