偏最小二乘

偏最小二乘基于解释变量 (X) 的线性组合（称为因子）来拟合线性模型。这些因子是通过将 X 与一个或多个响应 (Y) 之间的协方差最大化得到的。这样，PLS 可利用 X 和 Y 之间的相关性来揭示底层的潜在结构。这些因子实现了解释响应变异和预测变量变异的组合目标。当您的 X 变量数比观测数多或 X 变量高度相关时，偏最小二乘特别有用。

NIPALS

NIPALS 方法一次提取一个因子。用 X = X0 表示预测变量的中心化和统一尺度的矩阵，用 Y = Y0 表示响应值的中心化和统一尺度的矩阵。PLS 方法从预测变量的一个线性组合 t = X0w 开始，其中 t 称为得分向量，w 是相关的权重向量。PLS 方法通过 t 的回归来预测 X0 和 Y0：

= tp，其中 p´ = (t´t)-1t´X0

= tc，其中 c´ = (t´t)-1t´Y0

向量 p 和 c 分别称为 X 和 Y 载荷。

特定线性组合 t = X0w 是在指定某些响应线性组合 u = Y0q 的情况下具有最大协方差 t´u 的组合。另一特性是 X- 和 Y-权重 w 和 q 与协方差矩阵 X0´Y0 的第一个左奇异向量和右奇异向量成比例。或者分别等效于 X0´Y0Y0´X0 和 Y0´X0X0´Y0 的第一个特征向量。

这说明了如何提取第一个 PLS 因子。通过将 X0 和 Y0 替换为第一个因子中的 X 和 Y 残差，以相同方式提取第二个因子：

X1 = X0 –

Y1 = Y0 –

这些残差还被称为缩小的 X 和 Y 区组。根据要提取的因子数，重复提取得分向量和缩小数据矩阵的过程。

SIMPLS

SIMPLS 算法开发的目的在于优化统计准则：它寻找在 X 得分是正交的前提下使 X 和 Y 的线性组合之间的协方差最大化的得分向量。不同于 NIPALS，该算法缩小了矩阵 X0 和 Y0 ，SIMPLS 缩小的是叉积矩阵 X0´Y0。

在单个 Y 变量的情况下，这两个算法是等效的。但是，对于多元 Y，模型有所不同。SIMPLS 是 De Jong (1993) 提出的。