多変量分析 > 主成分分析 > 「主成分分析」プラットフォームの起動
公開日: 09/19/2023

「主成分分析」プラットフォームの起動

「主成分分析」プラットフォームを起動するには、[分析]>[多変量]>[主成分分析]を選択します。主成分分析は、「多変量の相関」プラットフォームや「三次元散布図」プラットフォームでも実行できます。

主成分分析の例で解説している例では、「Solubility.jmp」サンプルデータの連続変数をすべて使用しています。

図4.3 「主成分分析」起動ウィンドウ 

「主成分分析」起動ウィンドウ

「列の選択」の赤い三角ボタンのメニューのオプションについては、『JMPの使用法』の列フィルタメニューを参照してください。

Y, 列

主成分分析の対象となる変数を指定します。

Z, 追加変数

追加変数(supplementary variable)として使用する列を指定します。追加変数は主成分の計算には含まれません。追加変数を指定しても、元の主成分分析そのものには影響しません。連続尺度の追加変数に対しては、それらの主成分負荷量が計算され、グラフにプロットされます。追加変数は主成分を解釈するのにも役立ちます。

重み

この役割を割り当てた列の数値は、分析において各行の重みとして使用されます。

メモ: 「重み」の役割は、計算方式が[横長データ]のときは無視されます。

度数

この役割を割り当てた列の数値は、分析において各行の度数として使用されます。

メモ: 「度数」の役割は、計算方式が[横長データ]のときは無視されます。

By

[By]変数に指定した列の値ごとに「主成分分析」レポートが作成されます。つまり、グループごとに主成分分析が実行されます。

標準化

各列を中心化や標準化するかどうかを指定します。これにより、主成分の計算に使用する行列が決まります。

標準化

データの各列について、平均を引いて標準偏差で割ります。つまり、データの各列を中心化かつ尺度化します。この場合、相関係数行列に対する主成分分析が行われます。

非尺度化

データの各列について、平均を引きますが、標準偏差では割りません。つまり、データの各列を中心化しますが、尺度化はしません。この場合、共分散行列に対する主成分分析が行われます。

非尺度化・非中心化

元データがそのまま計算に使われます。つまり、中心化も尺度化も行われません。この場合、元データの積和行列に対する主成分分析が行われます。

計算方式

データの種類を指定します。

デフォルト

列数が500未満か、または列数が行数より少ない場合は、[縦長データ]が使用されます。列数が501列以上あり、列数が行数を上回る場合、JMPの警告ウィンドウで[横長データ]が推奨されます。横長データの推定法を使用する場合は[横長データの手法 (高速)]を、縦長データの推定法を使用する場合は[デフォルトの手法 (低速)]をクリックします。

縦長データ

内部的な計算として、相関係数行列・共分散行列・積和行列のいずれかがまず計算され、それらの行列に対する固有値分解により主成分分析が計算されます。

横長データ

主成分分析を計算するのに、特異値分解が使われます。

分散推定

(「計算方式」として[縦長データ]を指定した場合のみ使用可能。)相関係数行列の計算方法を指定します。これらのオプションは、欠測値の処理の仕方が違います。

デフォルト

[デフォルト]オプションを選択した場合は、状況に応じて実際には[リストワイズ]・[ペアワイズ]・[REML]のいずれかが使用されます。また、状況に応じて、[横長]への変更を促す警告が表示されます。

欠測値が1つもないデータテーブルの場合は、[リストワイズ]推定が使用されます。

[ペアワイズ]推定は、データに欠測値があり、かつ、次の条件のいずれかに相当する時に使われます。その条件とは、データの列数が11列以上、行数が5,001行以上、または、行数より列数が多い場合です。

それ以外で欠測値があるデータには、[REML]推定が使用されます。

REML

制限最尤法(REML)による推定は、欠測値がある場合でも、すべてのデータを使用します。バイアス修正項の計算に時間がかかるため、データセットが大規模で欠測値が多い場合は、計算時間が長くなります。そのため、REMLはデータが小規模な場合に有用な推定法です。データに欠測値が1つもない場合、[REML]や[最尤]を指定しても、リストワイズ法により計算が行われます。データに欠測値がある場合、REML推定の分散推定値と共分散推定値は、最尤法のそれらよりもバイアスが小さいです。統計的な詳細については、REMLを参照してください。

最尤

最尤推定も、欠測値がある場合でも、すべてのデータを使用します。最尤推定はREML推定よりも計算が速いです。欠測データのある大規模なデータでは、最尤推定が有用です。

ロバスト

ロバスト推定も、欠測値がある場合でも、すべてのデータを使用します。この方法は、外れ値となっているデータに対する重みを小さくします。そのため、外れ値のあるデータに対して有用です。統計的な詳細については、ロバストを参照してください。

リストワイズ

リストワイズ法では、すべての列の値が欠測値ではない行だけを使って、Pearsonの相関係数を計算します。統計的な詳細については、Pearsonの積率相関の統計的詳細を参照してください。この推定法では、すべての値が非欠測値である行だけを計算に用います。したがって、欠測値が1つでもある行を除外したいときに便利です。

ペアワイズ

ペアワイズ法も、欠測値がある場合でも、すべてのデータを使用します。この分散推定法では、2変数のペアごとに、非欠測となっているすべてのデータを使用して、Pearsonの相関係数を計算します。詳細については、Pearsonの積率相関の統計的詳細を参照してください。データに欠測値がある場合に、次のいずれかの条件が満たされていれば、デフォルトの推定法としてペアワイズ法が使われます。その条件とは、データの列数が11列以上であるか、行数が5001行以上であるか、または、列数が行数より多いか、です。

欠測値があるデータに対して[REML]・[ML]・[ロバスト]のいずれかを選択した場合でも、データの列数が行数より多い場合には、JMPは分散推定法を[ペアワイズ]に切り替えます。

欠測値がないデータに対して[ロバスト]を選択した場合でも、データの列数が行数より多い場合には、JMPは分散推定法を[リストワイズ]に切り替えます。

列数が501列以上あり、かつ、行数を上回る場合、「計算方式」として何を選択したかに関わらず、[横長データ]に切り替えられます。

メモ: データの列数が501列以上あり、かつ、行数を上回る場合、[横長データ]を用いることを推奨する警告が表示されます。列数が非常に多い場合に通常の方法を使用すると、計算に時間がかかるためです。横長データの推定法を使用する場合は[横長データの手法 (高速)]を、もともと選択していた縦長データの推定法を使用する場合は[デフォルトの手法 (低速)]をクリックします。

成分の数

(「計算方式」として[横長データ]を指定した場合のみ使用可能。)求める主成分の個数を指定します。通常、「成分の数」にはデータの次元よりもかなり小さい値を指定します。

次元の指定

指定された次元までの主成分しか計算しません。つまり、切り捨て特異値分解(Truncated SVD)が行われます。切り捨て特異値分解では、欠測値がある場合でも、すべてのデータを使用します。[疎]オプションは、特異値分解において、分析者によって指定された個数だけ特異値および特異ベクトルを求めます。内部的な計算において共分散行列・相関係数行列・積和行列を求めません。また、必要な個数の主成分しか計算しません。このため、効率的に主成分分析を行います。このオプションは、データが疎の場合(つまりデータに多くの0を含む場合)や、データに多数の列が存在する場合に有用です。詳細については、切り捨て特異値分解を参照してください。

メモ: この方法は、JMP 16以前では[疎]オプションと呼ばれていたものです。

全次元

全次元の主成分を計算します。つまり、完全特異値分解(Full SVD)が行われます。完全特異値分解では、欠測値のある行を計算に使いません。欠測値が1つでもある行は、計算から除かれます。[横長]オプションを選択すると、内部的な計算において特異値分解が使われます。内部的な計算において共分散行列・相関係数行列・積和行列を求めません。このため、分析対象のデータにおける列数が非常に多い場合に、効率的に主成分分析を行います。詳細については、完全特異値分解を参照してください。

メモ: この方法は、JMP 16以前では[横長]オプションと呼ばれていたものです。

欠測値の補完

(「計算方式」として[横長データ]を指定した場合のみ使用可能。)行列補完によって欠測値を補完します。

より詳細な方法

(「計算方式」として[横長データ]を指定し、求める主成分の個数を指定した場合のみ使用可能。)指定された個数の主成分を計算する方法を選択できます。

高速近似

計算アルゴリズムとして、乱択特異値分解(Randomized Singular Value Decomposition)を用います。指定された個数だけの主成分を求めます。乱択特異値分解を参照してください。

ロバスト主成分分析

特異値分解と閾値処理を繰り返し実行して、データ行列を分解し、指定された個数だけの主成分を求めます。この方法は、「外れ値を調べる」プラットフォームでも使用されています。ロバスト主成分分析の詳細については、『予測モデルおよび発展的なモデル』のロバスト主成分分析による外れ値を参照してください。

欠測値のあるデータ

「主成分分析」プラットフォームにおける欠測値の処理方法は、分散推定法によって異なります。なお、このプラットフォーム以外でも、次のような方法で欠測値を補完できます。

[多変量]>[多変量の相関]で、[欠測データの補完]オプションを使えば、欠測値を補完できます。欠測データの補完を参照してください。

[分析]>[スクリーニング]>[欠測値を調べる]で、[多変量正規分布による補完]または[多変量の特異値分解補完]によっても、欠測値を補完できます。『予測モデルおよび発展的なモデル』の欠測値を調べるを参照してください。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).