大型数据集的分析涉及对某一零件、过程或样本取数百或数千个测量值,因此分析这样的数据集需要创新性的方法。“预测变量筛选”平台根据预测结果的能力提供筛选很多预测变量的方法。例如,预测变量筛选可用于帮助从患者(有某种症状和没有症状)检验的数千生物标记中识别生物标记来预测是否患有该症状。
预测变量筛选不同于响应筛选。响应筛选一次检验一个作为响应预测变量的因子。预测变量筛选使用 Bootstrap 森林法分割来评估预测变量对响应的贡献。针对多个预测变量构造分割模型。预测变量筛选可以标识这样的预测变量:它们单独存在时可能很弱但是与其他预测变量结合时变得很强。请参见响应筛选。
图 23.1 “预测筛选”报表的示例