要启动“模型筛选”平台,请选择分析 > 预测建模 > 模型筛选。
图 10.3 “模型筛选”启动窗口
有关“选择列”红色小三角菜单中选项的详细信息,请参见《使用 JMP》中的““列过滤器”菜单”。
Y,响应
您想要分析的一个或多个响应变量。
X,因子
预测变量。
权重
(不适用于“K 最近邻”、“支持向量机”或“神经”等建模平台。)一列,该列的数值为分析中的每一行都分配一个权重。
频数
(不适用于“K 最近邻”建模平台。)一列,列中的数值为分析中的每行分配一个频数。
验证
(若在启动窗口中选择了任何“交叉验证”选项,则不适用。)用于定义验证集的数值列。若在“选择列”列表中没有选择任何列的情况下点击“验证”按钮,您可以向数据表添加一个验证列。有关“生成验证列”实用工具的详细信息,请参见“生成验证列”。
注意:若指定的验证列具有三个以上的水平,则该列用于执行“K 折”交叉验证。
依据
一个或多个列,其水平定义不同的分析。对于指定列的每个水平,都使用您已经指定的其他变量分析相应行。结果显示在不同的报表中。若指定了多个“依据”变量,将为“依据”变量水平的每种可能组合生成单独的报表。
方法
支持您选择所需的建模平台。默认情况下,拟合的建模平台包括“决策树(分割)”、“Bootstrap 森林法”、“提升树”、“K 最近邻”、“神经”、“支持向量机”、“判别”、“拟合最小二乘法”、“逐步拟合”、“Logistic 回归”和“广义回归”。还提供“朴素 Bayes”、“偏最小二乘”和“XGBoost”等平台。
注意:
‒ JMP 不支持 XGBoost,只有在安装了 XGBoost 插件后才可用。有关 XGBoost 的详细信息,请参见 community.jmp.com.。
‒ “决策树(分割)”、“判别”和“偏最小二乘”都需要某种类型的验证集来拟合模型。
‒ 若一个验证集中的观测数少于 20 个,则无法拟合“决策树(分割)”模型。
‒ 建模平台在模型拟合中使用默认选项和调节参数。您可以尝试通过直接调用平台并选择不同选项来改善拟合效果,从而绕过默认选项生成的效果。
‒ 在“广义回归”平台中,“广义回归”下的“其他方法”选项调用其他几种方法,如、“岭”、“弹性网络”和“Lasso”。对于 Lasso 方法,当观测不足 1000 个,变量少于 100 个时,禁用“提前停止”。请参见《拟合线性模型》中的“广义回归模型”。
警告:这会导致其他模型拟合。
提供用于平台建模的其他选项。
添加双因子交互作用
向线性模型添加双因子交互作用效应。
添加二次项
将连续变量平方的效应添加到线性建模。
信息性缺失
为所有平台启用信息性缺失。
提供其他选项。
设置随机种子
设置用于模型拟合例程的任何随机成分的随机种子。这样您就可以重新运行平台并获得相同的模型拟合。
每个拟合的时间限制
指定每个拟合的时间限值(以秒为单位)。对于支持提前停止的平台,可以提供至该点为止的最佳估计。对于不支持提前停止的平台,不提供任何结果。
删除活动报表
不包括“模型筛选”报表窗口中的单个模型平台报表。
提示:选择该选项可在许多方法和拟合出现较大问题时释放内存。
运行时在日志中显示方法
在每次调用拟合平台时,向日志中写入进度消息。
提供用于多种交叉验证的选项。
K 折交叉验证
将数据随机分为 K 个部分或折。使用 K-1 折构建模型,其余折用于交叉验证,以此拟合数据模型。重复 K 次后总共得到 K 个模型。K 的默认值为 5。
‒ K 指定“K 折交叉验证”的折数。默认值为 5,且 K 必须大于 1。
‒ 提供最佳模型的结果。
嵌套交叉验证
将数据划分为嵌套的多折以进行交叉验证。首先,数据划分为 k = 1, ...,K 等分或 K 折。对于每折,第 k 折用作测试集,其余数据进一步划分为 L 等分。这些 L 子部分称为内折。然后,使用 L-1 个内折拟合数据模型,每次都将其余内折保留为交叉验证集。L 个模型之后使用第 k 折作为共同测试数据集。总之,一共拟合 K*L 个模型。K 的默认值为 4,且 L 的默认值为 5。
例如,设置 K=2 且 L =3。数据最初分为两折。第一折作为一个测试集保留,第二折分为 3 个内折。拟合三个数据模型,每次都有一个不同的内部折保留为交叉验证集。然后,在第一折上检验全部三个模型。
接着将第二折作为一个测试集保留,第一折分为 3 个内折。拟合三个数据模型,每次都有一个不同的内部折保留为交叉验证集。然后,在第二折上检验全部三个模型。
‒ K 指定“嵌套交叉验证”的折数。默认值为 4,且 K 必须大于 1。
‒ L 指定“嵌套交叉验证”的内折数。默认值为 5,且 K 必须大于 1。
注意:若同时选定“K 折交叉验证”和“嵌套交叉验证”,则执行“嵌套交叉验证”。
重复 K 折
指定“K 折交叉验证”或“嵌套交叉验证”过程重复的次数。
点击“确定”后,拟合指定模型并显示一组进度条。上部进度条报告所有拟合的进度。下部进度条报告当前单个模型拟合的进度。您可以停止下部进度条实施提前停止,而上部进度条将继续运行。