この例では、「Cytometry.jmp」サンプルデータテーブルを使って、データ行のクラスタリングを行います。サイトメトリー(cytometry)は、細胞の表面に対するマーカーを検出するのに使用されています。これらのマーカーは、特定の疾病を診断するのに役立ちます。この例では、サイトメトリー測定で読み取った4つのマーカーに基づいて、データ行をグループに分けます。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Cytometry.jmp」を開きます。
2. [分析]>[クラスター分析]>[K Meansクラスター分析]を選択します。
3. 「CD3」、「CD8」、「CD4」、「MCB」を選択して[Y, 列]をクリックします。
4. [OK]をクリックします。
5. 「クラスターの数」の下に「3」と入力します。
6. 「クラスター最大数(オプション)」下に「15」と入力します。
クラスターの最大個数を15に設定したため、3~15個のクラスターのあてはめが行われます。その後、これらのなかから最も適しているであろうクラスター数を選択できます。
7. [実行]をクリックします。
図13.2 「クラスターの比較」レポート
「クラスターの比較」レポートは、レポートウィンドウの最上部に表示されます。CCC(Cubic Clustering Criterion:立方クラスタリング規準)の最も大きいときのクラスタリングが、最も適していると考えられるクラスター数です。この例では、クラスター数が11のときに、CCCが最大となっています。
8. 「K Means法クラスター数=11」のレポートまでスクロールします。
図13.3 「K Means法クラスター数=11」レポート
「クラスター要約」レポートには、11個のクラスターそれぞれのオブザベーション数(データの行数)が表示されています。「クラスター平均」レポートには、4変数それぞれの、クラスターごとの平均が表示されます。
9. 「K Means法クラスター数=11」の赤い三角ボタンをクリックし、[パラレルプロット]を選択します。
図13.4 Cytometryデータのパラレルプロット
パラレルプロットからは、どのようにデータがクラスターごとに分布しているかが分かります。これらのプロットを使って、クラスター間でどのような違いがあるかを確認しましょう。クラスター4、6、7、8、9では、CD8の値が比較的低く、CD4の値が高いことがわかります。一方、クラスター1ではCD8の値が高く、CD4の値が低くなっています。
10. 「K Means法クラスター数=11」の赤い三角ボタンをクリックして[バイプロット]を選択します。
図13.5 Cytometryデータのバイプロット
プロットの右側には、クラスターを色分けする凡例が表示されます。最初の2つの主成分に基づいて、他から最も離れているように見えるクラスターは、クラスター3、10、11です。これらは、図13.4のパラレルプロットを見ても、他のクラスターのプロットと異なっていることが確認できます。プロットの下のリストを使用すれば、第1主成分と第2主成分以外のバイプロットを表示できます。