公開日: 09/19/2023

PLS回帰の統計的詳細

PLS回帰(Partial Least Squares regression)では、説明変数(X)の線形結合からなる因子に基づいて応答変数(Y)を予測する線形モデルを構築します。PLS回帰における因子は、Xの線形結合とYの線形結合との共分散が最大になるようなものです。このようにして、PLS回帰では、XYの関係を調べ、潜在的な因子を抽出します。PLS回帰では、「応答変数の変動」と「説明変数の変動」の両方を説明するような因子が抽出されます。PLS回帰は、データの行数より説明変数Xの個数の方が多い場合や、説明変数に強い相関が見られる場合に役立ちます。

NIPALS

NIPALS法は、以下に述べる反復計算によって、1つずつ因子を抽出していきます。X = X0を中心化および尺度化した説明変数の行列、Y = Y0を中心化および尺度化した応答変数の行列とします。PLS法は、初めに、予測変数の線形結合であるt =X0wを求めます。ここで、tスコアベクトルwはその重みベクトルです。そして、X0およびY0を求められたスコアtに回帰することにより、それらの予測値を計算します。

ここに式を表示= tp ここでp´ = (t´t)-1t´X0

ここに式を表示= tc´ ここでc´ = (t´t)-1t´Y0

ベクトルpcは、それぞれX負荷量およびYの負荷量と呼ばれます。

これらのスコア(線形結合)は、説明変数の線形結合 t =X0wと、応答変数の線形結合 u=Y0qとの共分散 t´uが最大になるように、求められます。共分散が最大になるとき、XYの重みであるwqは、共分散行列X0´Y0の第1左特異ベクトルおよび第1右特異ベクトル、つまりそれぞれX0´Y0Y0´X0およびY0´X0X0´Y0の第1固有ベクトルに比例したベクトルになっています。

以上の方法により、第1因子が計算されます。続いて、第2因子は、第1因子の計算におけるX0Y0を、以下のようにそれぞれXYの残差に置き換えて、上記の方法と同様に計算されます。

ここに式を表示

ここに式を表示

これらの残差は、収縮(deflate)されたXおよびYともいいます。スコアベクトルを抽出し、データ行列を収縮する過程が、抽出する因子の数だけ繰り返されます。

SIMPLS

SIMPLS法は、統計的な基準を最適化するという考えに基づいて導出された手法です。SIMPLS法では、Xスコアが直交しているという制約のもとで、Xの線形結合とYの線形結合との共分散が最大となるスコアベクトルを求めます。各反復において、NIPALS法では、行列X0Y0から予測値を引くことで収縮(deflate)させるといった計算が採用されていますが、SIMPLS法では、交差積行列X0´Y0に対して収縮が行われていきます。

Y変数が1つしかない場合には、SIMPLS法とNIPALS法は同じ結果になります。しかし、Y変数が2つ以上ある場合には、異なった結果になります。SIMPLSはDe Jong(1993)によって提唱されました。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).