用 X 表示预测变量的矩阵,用 Y 表示响应值的矩阵,该矩阵可能基于您在启动窗口中的选择进行了中心化和统一尺度。假定 Y 的成分是独立的,且服从具有公共方差 σ2 的正态分布。
Hoskuldsson (1988) 注意到基于得分构建的 Y 的 PLS 模型在形式上类似于多元线性回归模型。他使用这个相似性推导出预测值方差的近似公式。另见 Umetrics (1995)。但是,Denham (1997) 指出 PLS 预测的任何值是 Y 的非线性函数。他提出采用 Bootstrap 和交叉验证方法来获取预测区间。PLS 平台使用 Umetrics (1995) 中所述的基于正态性的方法。
用 T 表示其列为得分的矩阵,考虑 X 的新观测 x0。通过 T 对 Y 做回归来得到 Y 的预测模型。用 t0 表示与 x0 关联的得分向量。
用 a 表示因子数。将 s2 定义为残差平方和除以自由度,若数据中心化,则自由度 df = n - a -1,若数据未中心化,则自由度 df = n - a。s2 的值是 σ2 的估计值。
按以下方式估计 x0 处的预测均值的标准误差:
用 t0.975, df 表示 t 分布的 0.975 分位数,若数据已中心化,则该 t 分布的自由度 df = n - a -1,若数据未中心化,则自由度 df = n - a。
按以下方式计算均值的 95% 置信区间:
按以下方式估计 x0 处的单个响应预测值的标准误差:
用 t0.975, df 表示 t 分布的 0.975 分位数,若数据已中心化,则该 t 分布的自由度 df = n - a -1,若数据未中心化,则自由度 df = n - a。
按以下方式计算单个响应的 95% 预测区间: