「主成分分析」プラットフォームを起動するには、[分析]>[多変量]>[主成分分析]を選択します。主成分分析は、「多変量の相関」プラットフォームや「三次元散布図」プラットフォームでも実行できます。
主成分分析の例で解説している例では、「Solubility.jmp」サンプルデータの連続変数をすべて使用しています。
図4.3 「主成分分析」起動ウィンドウ
「列の選択」の赤い三角ボタンのメニューのオプションについては、『JMPの使用法』の列フィルタメニューを参照してください。
Y, 列
主成分分析の対象となる変数を指定します。
Z, 追加変数
追加変数(supplementary variable)として使用する列を指定します。追加変数は主成分の計算には含まれません。追加変数を指定しても、元の主成分分析そのものには影響しません。連続尺度の追加変数に対しては、それらの主成分負荷量が計算され、グラフにプロットされます。追加変数は主成分を解釈するのにも役立ちます。
重み
この役割を割り当てた列の数値は、分析において各行の重みとして使用されます。
注: 「重み」の役割は、[推定法]オプションが[横長]および[疎]のときは無視されます。
度数
この役割を割り当てた列の数値は、分析において各行の度数として使用されます。
注: 「度数」の役割は、[推定法]オプションが[横長]および[疎]のときは無視されます。
By
[By]変数に指定した列の値ごとに「主成分分析」レポートが作成されます。つまり、グループごとに主成分分析が実行されます。
推定法
相関の計算方法を指定します。これらの一部は欠測値の処理の仕方が違います。
デフォルト
[デフォルト]オプションを選択した場合は、状況に応じて実際には[リストワイズ]、[ペアワイズ]、[REML]のいずれかが使用されます。また、状況に応じて、[横長]への変更を促す警告が表示されます。
– 欠測値が1つもないデータテーブルの場合は、[リストワイズ]推定が使用されます。
– [ペアワイズ]推定は、データに欠測値があり、かつ、列数が11列以上、行数が5,001行以上、または行数より列数が多い場合に使用されます。
– それ以外で欠測値があるデータには[REML]推定が使用されます。
– データの列数が501列以上ある場合、[横長]を用いることを推奨する警告が表示されます。列数が非常に多い場合に通常の方法を使用すると、計算に時間がかかるためです。[横長]をクリックして、横長データに特化した計算方法に切り替えるか、または[続ける]をクリックして、最初に選択した方法を使用します。
REML
制限最尤法(REML)による推定は、欠測値がある場合でも、すべてのデータを使用します。バイアス修正項の計算に時間がかかるため、データセットが大規模で欠測値が多い場合は、計算時間が長くなります。そのため、REMLはデータが小規模な場合に有用な推定法です。データに欠測セルがない場合、[REML]や[最尤]を指定しても、リストワイズ法により計算が行われます。データに欠測値がある場合、REML推定の分散推定値と共分散推定値は、最尤法のそれらよりもバイアスが小さいです。統計的な詳細については、REMLを参照してください。
最尤
最尤推定も、欠測値がある場合でも、すべてのデータを使用します。最尤推定はREML推定よりも計算が速いです。欠測データのある大規模なデータでは、最尤推定が有用です。
ロバスト
ロバスト推定も、欠測値がある場合でも、すべてのデータを使用します。この方法は、外れ値となっているデータに対する重みを小さくします。そのため、外れ値のあるデータに対して有用です。統計的な詳細については、ロバストな推定法を参照してください。
リストワイズ
リストワイズ法では、すべての列の値が欠測値ではない行だけを使って、Pearsonの相関係数を計算します。統計的な詳細については、Pearsonの積率相関係数を参照してください。この推定法では、すべての値が非欠測値である行だけを計算に用います。したがって、欠測値が1つでもある行を除外したいときに便利です。
ペアワイズ
ペアワイズ法も、欠測値がある場合でも、すべてのデータを使用します。この推定法では、2変数のペアごとに、非欠測となっているすべてのデータを使用して、Pearsonの相関係数を計算します。統計的な詳細については、Pearsonの積率相関係数を参照してください。データに欠測値がある場合に、データの列数が11列以上であるか、行数が5001行以上であるか、または、列数が行数より多いか、のいずれかの条件を満たしていれば、デフォルトの推定法としてペアワイズ法が使われます。
横長
[横長]オプションは欠測値のある行を計算に使いません。欠測値が1つでもある行は、計算から除かれます。[横長]オプションを選択すると、内部的な計算において特異値分解が使われます。内部的な計算において共分散行列を求めず、効率的に主成分分析を行います。そのような計算を行うので、データに非常に多くの列があるときに役立ちます。統計的な詳細については、横長なデータに対する手法を参照してください。
疎
[疎]オプションは、欠測値がある場合でも、すべてのデータを使用します。[疎]オプションは、特異値分解において、分析者によって指定された個数だけ特異値および特異ベクトルを求めます。内部的な計算において共分散行列や不必要な主成分を求めずに、効率的に主成分分析を行います。このオプションは、データが疎の場合(つまりデータに多くの0を含む場合)や、データに多数の列が存在する場合に有用です。統計的な詳細については、疎なデータに対する手法を参照してください。
注: 欠測値があるデータに対して[REML]、[ML]または[ロバスト]を選択した場合でも、データの列数が行数より多い場合には、JMPは推定法を[ペアワイズ]に切り替えます。
成分の数
(「推定法」に[疎]を指定した場合にのみ使用できます。)求める主成分の個数を指定します。通常、「成分の数」にはデータの次元よりもかなり小さい値を指定します。
上記したように、欠測値に対応するために、いくつかの推定法が用意されています。なお、次のような方法で欠測値を補完することもできます。
• [多変量]>[多変量の相関]で、[欠測データの補完]オプションを使えば、欠測値を補完できます。欠測データの補完を参照してください。
• [分析]>[スクリーニング]>[欠測値を調べる]で、[多変量正規分布による補完]または[多変量の特異値分解補完]によっても、欠測値を補完できます。『予測モデルおよび発展的なモデル』の「欠測値を調べる」ユーティリティを参照してください。