发布日期: 08/07/2020

偏最小二乘

偏最小二乘基于解释变量 (X) 的线性组合(称为因子)来拟合线性模型。这些因子是通过将 X 与一个或多个响应 (Y) 之间的协方差最大化得到的。这样,PLS 可利用 XY 之间的相关性来揭示底层的潜在结构。这些因子实现了解释响应变异和预测变量变异的组合目标。当您的 X 变量数比观测数多或 X 变量高度相关时,偏最小二乘特别有用。

NIPALS

NIPALS 方法一次提取一个因子。用 X = X0 表示预测变量的中心化和统一尺度的矩阵,用 Y = Y0 表示响应值的中心化和统一尺度的矩阵。PLS 方法从预测变量的一个线性组合 t = X0w 开始,其中 t 称为得分向量w 是相关的权重向量。PLS 方法通过 t 的回归来预测 X0Y0

= tp,其中 p´ = (t´t)-1t´X0

= tc,其中 c´ = (t´t)-1t´Y0

向量 pc 分别称为 XY 载荷

特定线性组合 t = X0w 是在指定某些响应线性组合 u = Y0q 的情况下具有最大协方差 t´u 的组合。另一特性是 X- 和 Y-权重 wq 与协方差矩阵 X0´Y0 的第一个左奇异向量和右奇异向量成比例。或者分别等效于 X0´Y0Y0´X0Y0´X0X0´Y0 的第一个特征向量。

这说明了如何提取第一个 PLS 因子。通过将 X0Y0 替换为第一个因子中的 XY 残差,以相同方式提取第二个因子:

这些残差还被称为缩小的 XY 区组。根据要提取的因子数,重复提取得分向量和缩小数据矩阵的过程。

SIMPLS

SIMPLS 算法开发的目的在于优化统计准则:它寻找在 X 得分是正交的前提下使 XY 的线性组合之间的协方差最大化的得分向量。不同于 NIPALS,该算法缩小了矩阵 X0Y0,SIMPLS 缩小的是叉积矩阵 X0´Y0

在单个 Y 变量的情况下,这两个算法是等效的。但是,对于多元 Y,模型有所不同。SIMPLS 是 De Jong (1993) 提出的。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).