公開日: 04/01/2021

距離の計算方法

階層型クラスタリングのときに用いる距離としては、次のようなものが用意されています。詳細については、各手法における距離の計算式を参照してください。

Ward法

2つのクラスター間の距離は、分散分析のクラスター間平方和をすべての変数について合計したものとして計算されます。クラスター内平方和が最小化されるように、クラスターを結合していきます。クラスター間平方和は、全体平方和で割って分散比(半偏相関の2乗)を求めると解釈しやすくなります。

Ward法は、多変量の正規混合分布、球面性の共分散行列、等しい抽出確率という仮定のもとでの尤度が最大になるようにクラスターを結合していきます。

Ward法では、オブザベーション数が少ないクラスターが結合される傾向にあり、オブザベーション数がほぼ同じクラスターができてしまいます。また、外れ値に対して非常に敏感です。Milligan(1980)を参照してください。

群平均法

2つのクラスター間の距離は、各クラスターに属する点のペアの距離を平均したものです。群平均法では、分散の小さいクラスターが結合され、クラスターの分散が等しくなってしまう傾向が多少あります。Sokal and Michener(1958)を参照してください。

重心法

2つのクラスター間の距離は、その平均間のユークリッド距離として定義されます。重心法は、他の階層型クラスター分析方法より外れ値に対して頑健性がありますが、それ以外の点ではWard法や群平均法に劣ることがあります。Milligan(1980)を参照してください。

最短距離法

2つのクラスターから1点ずつを選択したときに距離が最短になる2点間の距離を、クラスター間の距離とします。最短距離法は、論理的に見て望ましい性質を持っています。しかし、モンテカルロ実験では良い結果が出ていません。それについては、Jardine and Sibson(1971)、Fisher and Van Ness(1971)、Hartigan(1981)、Milligan(1980)を参照してください。この方法はFlorek et al.(1951a1951b)によって考案され、後にMcQuitty(1957)とSneath(1957)が再考案しました。

クラスターの形状が制約されないため、長く延びた不規則なクラスターができがちで、コンパクトなクラスターを形成することができません。最短距離法では、大きなクラスターに分離する前に、分布の裾が分離する傾向があります。Hartigan(1981)を参照してください。

最長距離法

2つのクラスターから1点ずつを選択したときに距離が最長になる2点間の距離を、クラスター間の距離とします。この方法ではクラスターの直径がほぼ同じになってしまう傾向が強く、それほど極端でない外れ値にも大きく影響されてしまうことがあります。Milligan(1980)を参照してください。

高速Ward法

行数が大量のデータ向けに、計算時間が速いアルゴリズムを用いたWard法です。このアルゴリズムでは距離行列の計算を必要としないため、計算時間が短縮されます。データが2,000行を超える場合に、自動的に使用されます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).