本节汇总了“拟合确定性筛选”平台中使用的算法。请参见 Jones and Nachtsheim (2016)。
“有效模型选择”算法以两个响应 YME 和 Y2nd 的形式表示响应 Y,以便 Y = YME + Y2nd。
‒ YME 是从针对主效应和假因子的 Y 回归获取的预测值。
由于设计的折叠结构,无需在 YME 中包含区组因子。区组因子包括在 Y2nd 中。
‒ Y2nd 的计算公式为 Y2nd = Y - YME。
注意:在 DSD 中,列 YME 和 Y2nd 正交。
该分析分为两个阶段:
• 阶段 1:响应 YME 用于标识主效应。阶段 1 标识视为活跃的主效应。
• 阶段 2:响应 Y2nd 用于标识二阶效应。阶段 2 考虑阶段 1 中活跃主效应的二阶项,并确定这些包含效应中视为活跃的效应子集。
注意:若有分区组因子,则该因子包含在阶段 2 效应列表中,即便它不显著。
阶段 1 方法依赖于该设计是否包含假因子或中心点重复。
1. 使用假因子或中心点重复,将构造独立于模型的误差方差估计量。假定没有活跃的三阶或更高的奇阶效应,该估计值则无偏。
2. 使用 YME,针对该估计值检验主效应。p 值小于阈值 p 值的主效应被认为是活跃的。阈值如下:
‒ 对于有一个误差自由度的情况,阈值为 0.20。
‒ 对于有两个误差自由度的情况,阈值为 0.10。
‒ 对于两个以上误差自由度的情况,阈值为 0.05。
‒ 用户指定的 p 值是阈值。
注意:要指定不同的 p 值阈值,请从“拟合确定性筛选”小三角菜单中选择设置阶段 1 p 值。
3. 若没有任何主效应的 p 值小于阈值,则可认定没有活跃主效应和活跃的双因子效应。该过程到此为止。
4. 若找到活跃的主效应,则非活跃主效应的变异性都合并到在 (1) 中构造的误差方差中。
注意:若设计中有分类因子,则每次将主效应选作活跃效应时,都会重新计算估计的系数。
在这种情况下,不存在独立于模型的误差方差估计量。针对从非活跃主效应构造的误差方差的估计值按顺序检验主效应子集。假定有 m 个主效应。
1. 估计效应的绝对值(将 YME 用作响应)从最大到最小排列。
2. 对于每个 1 ≤ i < m,具有第 i 个最大绝对值的效应针对包含该效应和所有具有更大绝对值的效应的模型的调整残差平方和来进行检验。
3. 模型中具有最小 p 值的效应被视为活跃效应。
4. 若找到活跃主效应,则将 YME 用作响应,使用非活跃主效应的变异性构造误差方差的估计值。
注意:要使“拟合确定性筛选”过程在情况 2 中正常工作,至少有一个主效应必须活跃,并且至少有一个必须非活跃。若没有主效应活跃,或是所有主效应都活跃,则该过程将标识一组主效应,但实现该子集的过程会被打折扣。
在阶段 2 中,考虑的因子取决于“强遗传”选项。选定强遗传时,只考虑涉及主效应在阶段 1 中标识为活跃的那些因子的二阶效应。阶段 2 方法取决于在阶段 1 中标识的活跃主效应数。
阶段 2 使用经指导的子集选择过程。目标是:只要阶段 2 的 RMSE 与阶段 1 的 RMSE 之比大于指定阈值,就继续向模型添加二阶效应。当该比值小于等于阈值时,这指示没有任何其他二阶效应要添加到模型中。默认阈值为 1。与较大阈值相比,较小的阈值会增加可能被标识为活跃项的项数。
注意:要将 RMSE 比率阈值指定为 1 之外的其他值,请从“拟合确定性筛选”红色小三角菜单中选择设置阶段 2 比值。
对于阶段 2:
• 对于有一个误差自由度的情况,阈值为 0.20。
• 对于有两个误差自由度的情况,阈值为 0.10。
• 对于两个以上误差自由度的情况,阈值为 0.05。
• 用户指定的 p 值是阈值。
1. 针对阶段 1 的误差估计值检验 Y2nd 的变异性,以确定是否存在因二阶效应导致更多的变异性。
‒ 若该检验的 p 值超过阈值,该过程将终止,不标识任何活跃的二阶效应。
2. 若该检验的 p 值小于等于阈值,则会从 k = 1 开始,接连检验大小为 k、k = 1,2,3,... 的子集。
3. 对于每个 k,都针对阶段 1 的误差估计值检验该大小的每个子集的残差平方和。标识具有最小 RMSE 的子集。
4. 该过程会一直持续到找到 RMSE 与阶段 1 RMSE 的比值小于阶段 2 比值的 k 为止。
5. 与 k 的末尾值对应的子集之前的子集中的效应被视为活跃的双因子效应。
当在阶段 1 中标识 8 个或更多的活跃主效应时,阶段 2 对二阶项使用向前选择。