“交叉验证”报表
当选定标准化 X 选项时,标准化会应用到整个数据表一次。它不会重新应用到各个训练集。但是,当选定中心化统一尺度选项的任意组合时,该选择组合会应用到每个交叉验证训练集。使用这些训练集执行交叉验证,若选定这些选项则会对它们单独进行中心化和统一尺度。
van der Voet 检验的统计量,它检验具有不同提取因子数的模型是否与最佳模型存在显著差异。每个 van der Voet T2 检验的原假设假定基于相应因子数的模型与最佳模型没有差异。备择假设是该模型与最佳模型有差异。有关更多详细信息,请参见van der Voet T2
van der Voet T2 检验的 p 值。有关更多详细信息,请参见van der Voet T2
Q2
此处 PRESSiSSYi 对应于它们针对 i 个因子的值。
R2X
具有给定因子数的模型所解释的 X 变异的百分比。它是 R2X 值之和( i = 1 到给定的因子数)。
R2Y
具有给定因子数的模型所解释的 Y 变异的百分比。它是 R2Y 值之和(i = 1 到给定的因子数)。
Q2 和累积 R2Y 的解释
统计量 Q2 和累积 R2Y 均可衡量模型的预测能力,但方法不同。
累积 R2Y 随因子数的增加而增大。这是因为随着因子添加至模型,更多的变异得到解释。
Q2 的趋势是随因子数的增加,先增大后减小(或至少停止增大)。这是因为随着更多的因子添加至模型,模型开始调整训练集,不能很好地推广到新数据,导致 PRESS 统计量减小。
Q2 和累积 R2Y 分析是 van der Voet 检验的一个替代方法,用于确定要在模型中包括多少因子。选择一个因子数,使得 Q2 较大且没有开始减小。您还希望累积 R2Y 较大。
Penta.jmp 的累积 R2Y 和 Q2显示 Penta.jmp 数据表针对因子数标绘的累积 R2Y 和 Q2,验证方法为“留一法”。累积 R2Y 增加,并且在大约四个因子时开始趋于平稳。统计量 Q2 在两个因子时最大,然后开始趋于平稳。该图表明具有两个因子的模型将能够解释 Y 中的大部分变异,且不会过拟合数据。
Penta.jmp 的累积 R2Y 和 Q2
对于指定的因子数 a,按以下方式计算“PRESS 均值根”:
1.
对每个训练集拟合具有 a 个因子的模型。
4.
a 个因子的“PRESS 均值根”是所有响应的 PRESS 值的平均值的平方根。
5.
多个 Y 的 PRESS 统计量通过计算在步骤 3中获得的全部响应的 PRESS 统计量的平均值得到。
Q2 的计算
统计量 Q2 定义为 PRESS 统计量是模型的所有响应的预测误差平方和平均值,该模型基于训练集构建,但是基于验证集计算。SSY 的值是所有响应的 Y 的平方和平均值,这些响应基于验证集中的观测值。
Q2 是为验证集计算的 值的平均值,这些验证集基于通过一次留一个观测构造的模型。
Q2 是为验证集计算的 值的平均值,这些验证集基于通过每次留 K 个子集中的一个构造的 K 个模型。
Q2 是为验证集计算的 值的平均值,这些验证集基于使用单个训练数据集构造的模型。
使用验证时 R2X 和 R2Y 的计算