偏最小二乘基于解释变量 (X) 的线性组合(称为因子)来拟合线性模型。这些因子是通过将 X 与一个或多个响应 (Y) 之间的协方差最大化得到的。这样,PLS 可利用 X 和 Y 之间的相关性来揭示底层的潜在结构。这些因子实现了解释响应变异和预测变量变异的组合目标。当您的 X 变量数比观测数多或 X 变量高度相关时,偏最小二乘特别有用。
NIPALS 方法一次提取一个因子。用 X = X0 表示预测变量的中心化和统一尺度的矩阵,用 Y = Y0 表示响应值的中心化和统一尺度的矩阵。PLS 方法从预测变量的一个线性组合 t = X0w 开始,其中 t 称为得分向量,w 是相关的权重向量。PLS 方法通过 t 的回归来预测 X0 和 Y0:
= tp′,其中 p´ = (t´t)-1t´X0
= tc,其中 c´ = (t´t)-1t´Y0
向量 p 和 c 分别称为 X 和 Y 载荷。
特定线性组合 t = X0w 是在指定某些响应线性组合 u = Y0q 的情况下具有最大协方差 t´u 的组合。另一特性是 X- 和 Y-权重 w 和 q 与协方差矩阵 X0´Y0 的第一个左奇异向量和右奇异向量成比例。或者分别等效于 X0´Y0Y0´X0 和 Y0´X0X0´Y0 的第一个特征向量。
这说明了如何提取第一个 PLS 因子。通过将 X0 和 Y0 替换为第一个因子中的 X 和 Y 残差,以相同方式提取第二个因子:
这些残差还被称为缩小的 X 和 Y 区组。根据要提取的因子数,重复提取得分向量和缩小数据矩阵的过程。
SIMPLS 算法开发的目的在于优化统计准则:它寻找在 X 得分是正交的前提下使 X 和 Y 的线性组合之间的协方差最大化的得分向量。不同于 NIPALS,该算法缩小了矩阵 X0 和 Y0,SIMPLS 缩小的是叉积矩阵 X0´Y0。
在单个 Y 变量的情况下,这两个算法是等效的。但是,对于多元 Y,模型有所不同。SIMPLS 是 De Jong (1993) 提出的。