本例来自光谱仪校准,这是偏最小二乘很有效的领域。假定您在研究波罗的海的污染问题。您想使用海水样本的光谱确定这些样本中存在的三种化合物的含量。
关注的三种化合物为:
• 木质素磺酸盐 (ls),它是纸浆工业产生的污染
• 黑腐酸 (ha),它是天然森林的产物
• 洗涤剂 (dt) 产生的增白剂
这三种化合物在每个样本中的含量用响应表示。预测变量表示为在某个波长范围内 (v1–v27) 测量的光谱发射强度。
为了校准模型,使用了已知成分的样本。校准数据包含已知木质素磺酸盐、黑腐酸和洗涤剂浓度的 16 个样本。记录了 27 个等距波长下的发射强度。使用“偏最小二乘”平台生成模型来根据光谱发射强度预测化合物含量。
1. 选择帮助 > 样本数据库,然后打开 Baltic.jmp。
注意:Baltic.jmp 数据表中的数据在 Umetrics (1995) 中报告。原始来源是 Lindberg, Persson and Wold (1983)。
2. 选择分析 > 多元方法 > 偏最小二乘。
3. 将 ls、ha 和 dt 分配给 Y,响应角色。
4. 将强度(它包含 27 个强度变量 v1-v27)分配给 X,因子角色。
5. 点击确定。
随即显示“偏最小二乘模型启动”控制面板。
6. 选择留一法作为验证方法。
7. 点击执行。
因为 van der Voet 检验是随机化检验,您的“概率 > van der Voet T2”值可能略有不同。
图 6.2 “偏最小二乘”报表
“PRESS (预测残差平方和) 均值根图”显示当因子数为 7 时 PRESS 均值根的值最小。这在“PRESS 均值根图”下的注释中有说明。生成名为带 7 个因子的 NIPALS 拟合的报表。该报表的一部分显示在Figure 6.3 中。
van der Voet T2 统计量检验具有不同因子数的模型是否与具有最小 PRESS 值的模型显著不同。常见做法是提取 van der Voet 显著性水平超过 0.10 的最小因子数 (SAS Institute Inc, 2018f; Tobias 1995)。若您要在此处应用该方法,可以通过在模型启动面板中输入 6 作为因子数来拟合新模型。
图 6.3 提取的七个因子
8. 点击“带 7 个因子的 NIPALS 拟合”红色小三角并选择诊断图。
这得到一个报表用于显示“预测值-实际值”图以及三个报表用于显示各种残差图。“预测值-实际值”图显示预测的化合物含量与实际含量相一致的程度。
图 6.4 诊断图
9. 选择“带 7 个因子的 NIPALS 拟合”红色小三角并选择系数-VIP 图。
图 6.5 系数-VIP 图
“系数-VIP 图”帮助识别对拟合多个响应有影响的变量。例如,v23、v2 和 v26 都有超过 0.8 的 VIP 值和相对较大的系数。