この例では、2009年の1千人あたりの租出生率と租死亡率によって国をグループ分けし、クラスターについて調べます。
1. [ヘルプ]>[サンプルデータフォルダ]を選択し、「Birth Death Subset.jmp」を開きます。
2. [分析]>[クラスター分析]>[階層型クラスター分析]を選択します。
3. 「租出生率」と「租死亡率」を選択し、[Y, 列]をクリックします。
4. 「国」を選択して[ラベル]をクリックします。
これにより、[OK]をクリックして表示される樹形図には行番号ではなく「国」列の値がラベルとして表示されます。
5. [OK]をクリックします。
6. 「階層型クラスター分析」の赤い三角ボタンをクリックし、[クラスターの色分け]を選択します。
図13.2 「階層型クラスター分析」レポート
樹形図はクラスタリングの実行結果を示しています。クラスタリングの過程は、樹形図を左から右へとたどると確認できます。各ステップで、最も距離が近い2つのクラスターを、1つのクラスターに結合しています。
樹形図では、クラスター間の相対的な距離は、クラスターを結合している縦線間の横の距離によって判断できます。たとえば、AfghanistanとZaireの違いは、MexicoとVenezuelaで構成されるクラスターとMalaysiaとの違いより大きいことを示しています。
クラスターが4個である位置にひし形が設定されています。クラスターが4個になる直前で結合されたクラスターは、「Algeria」から「Bangladesh」までで構成されるクラスターと、「Iraq」から「Saudi Arabia」までで構成されるクラスターです。ひし形でクラスターを4個にしたときの距離グラフに、これら2個のクラスター間の距離が示されています。この距離の数値は、「クラスター分析の履歴」レポートにおいて、「クラスター数」が「4」である行に表示されています。その数値は1.618708760です。これは、4個のクラスターが形成されるときに結合された2つのクラスター(「Algeria」で始まるクラスターと、「Iraq」で始まるクラスター)の距離です。
距離グラフでは、クラスターが4つのところで線の傾きが急になっています。この傾きの変化は、クラスターが4つになるまでに結合されたクラスター間の違いが比較的小さいことを示しています。つまり、クラスター数4が最良の選択であることを示しています。このクラスター数は、デフォルトで示された数であることに注意してください。
7. 「階層型クラスター分析」の赤い三角ボタンをクリックし、[星座樹形図]を選択します。
図13.3 星座樹形図
この星座樹形図は、国を端点、各クラスター結合を新しい点として表しています。線はクラスター内の所属関係を表します。クラスター結合間の線の長さは、結合されたクラスター間のおおよその距離を表します。星座樹形図から、AfghanistanとZaireを含むクラスターが、2つの大きなクラスターから、等しく離れていることがわかります。