JMPには、データ行をクラスタリングするためのプラットフォームが4つ用意されています。「階層型クラスター分析」は、そのなかの1つです。4つの手法の比較については、クラスター分析用プラットフォームの概要を参照してください。
階層型クラスター分析では、まず、データ行の1つ1つそれぞれが1つのクラスターとみなされます。そして、1ステップごとに距離が最も近い2つのクラスターが1つに結合されていきます。この結合処理が繰り返され、最後にはすべてのデータが1つのクラスターにまとめられます。階層型クラスター分析は、結合していく処理を行うため、凝集型クラスター分析(agglomerative clustering)とも呼ばれています。
結合過程はツリー(樹形図)として描かれます。また、JMPには、クラスターの個数を決めるのに役立つように、距離グラフが用意されています。クラスター間の距離があまり大きくなっていない段階を特定することで、クラスター数を決めることができます。
階層型クラスター分析では文字列データの列にも対応し、その場合、距離は次のように定義されます。
• 文字型の列が順序尺度である場合は、低いほうのカテゴリから順番に通し番号が付けられ、その通し番号が連続尺度のデータのように扱われます。これらの値は、連続尺度のデータのように標準化されます。
• 文字型の列が名義尺度の場合は、カテゴリが一致した場合は距離を0、一致しない場合は距離を1として計算が行われます。
階層型クラスター分析では、クラスター間の距離を定義する方法として、群平均法、重心法、Ward法、最短距離法、最長距離法の5つから選ぶことができます。どの方法を選ぶかによって、クラスター分析の結果が変わってきます。
ヒント: 階層型クラスター分析の処理は、高速Ward法を除いて、n個のオブザベーションに対するn(n + 1)/2の距離の計算から開始されます。そのため、nが大きいと、計算に時間がかかる場合があります。オブザベーションの数が多い場合は、K Meansクラスター分析または正規混合を使用することを検討してください。