「主成分分析」プラットフォームを起動するには、[分析]>[多変量]>[主成分分析]を選択します。主成分分析は、「多変量の相関」プラットフォームや「三次元散布図」プラットフォームでも実行できます。
第 “主成分分析の例”で解説している例では、「Solubility.jmp」サンプルデータの連続変数をすべて使用しています。
図4.3 「主成分分析」起動ウィンドウ
[デフォルト]オプションを選択した場合は、状況に応じて実際には[リストワイズ]、[ペアワイズ]、[REML]のいずれかが使用されます。また、状況に応じて、[横長]への変更を促す警告が表示されます。
–
|
欠測値が1つもないデータテーブルの場合は、[リストワイズ]推定が使用されます。
|
–
|
[ペアワイズ]推定は、データに欠測値があり、かつ、列数が11列以上、行数が5,001行以上、または行数より列数が多い場合に使用されます。
|
–
|
それ以外で欠測値があるデータには[REML]推定が使用されます。
|
–
|
データの列数が501列以上ある場合、[横長]を用いることを推奨する警告が表示されます。列数が非常に多い場合に通常の方法を使用すると、計算に時間がかかるためです。[横長]をクリックして、横長データに特化した計算方法に切り替えるか、または[続ける]をクリックして、最初に選択した方法を使用します。
|
制限最尤法(REML)推定は、欠測値がある場合でも、すべてのデータを使用します。バイアス修正項の計算に時間がかかるため、データセットが大規模で欠測値が多い場合は、計算時間が長くなります。そのため、REMLはデータが小規模な場合に有用な推定法です。データに欠測セルがない場合、[REML]や[最尤]を指定しても、リストワイズ法により計算が行われます。データに欠測値がある場合、REML推定の分散推定値と共分散推定値は、最尤法のそれらよりもバイアスが小さいです。詳細は、第 “REML”を参照してください。
ロバスト推定も、欠測値がある場合でも、すべてのデータを使用します。この方法は、外れ値となっているデータに対する重みを小さくします。そのため、外れ値のあるデータに対して有用です。統計的な詳細については、「多変量の相関」章の「ロバストな推定法」(39ページ)を参照してください。
[横長]オプションは欠測値のある行を計算に使いません。欠測値が1つでもある行は、計算から除かれます。[横長]オプションを選択すると、内部的な計算において特異値分解が使われます。内部的な計算において共分散行列を求めず、効率的に主成分分析を行います。そのような計算を行うので、データに非常に多くの列があるときに役立ちます。詳細は、第 “横長なデータに対する手法”を参照してください。
[疎]オプションは、欠測値がある場合でも、すべてのデータを使用します。[疎]オプションは、特異値分解において、分析者によって指定された個数だけ特異値および特異ベクトルを求めた。内部的な計算において共分散行列や不必要な主成分を求めずに、効率的に主成分分析を行います。このオプションは、データが疎の場合(つまりデータに多くの0を含む場合)や、データに多数の列が存在する場合に有用です。詳細は、第 “疎なデータに対する手法”を参照してください。
•
|
•
|
[分析]>[スクリーニング]>[欠測値を調べる]で、[多変量正規分布による補完]または[多変量の特異値分解補完]を使用します。詳細については、『予測モデルおよび発展的なモデル』の「モデル化ユーティリティ」章を参照してください。
|