クラスタリングは、多変量データをもとに、値が近い行をグループにまとめていく手法です。通常、データ点はp次元空間全体に均等に散らばっておらず(pは変数の個数)、いくつかの塊(クラスター)になっています。それらのクラスターを見つけ出すと、データをよりよく理解できるようになるでしょう。
注: JMPには、変数をクラスタリングするためのプラットフォームも用意されています。変数のクラスタリングを参照してください。
JMPには、データ行(オブザベーション)をクラスタリングするためのプラットフォームが4つ用意されています。
• 「階層型クラスター分析」は、数千行までの小さなテーブルに適しており、文字データにも対応しています。行がツリー型の階層構造にまとめられます。クラスタリングの処理が終わった後でも、クラスターの個数を変更することができます。
• 「K Meansクラスター分析」は、数十万行までの大きいデータに適しています。この分析は、数値データだけに対応しています。処理を開始する前に、クラスターの数kを指定する必要があります。まず、適切と思われるシード点が推定されます。その後、各点をクラスターに割り当てる作業とクラスター中心を再計算する作業が交互に繰り返されます。
• 「正規混合」は、複数の多変量正規分布の混合分布から得られた、重なりがあるデータに適しています。この分析は、数値データだけに対応しています。外れ値があるような場面では、それらの外れ値を表すために、一様分布に従うと仮定したクラスターを使用できます。
「正規混合」プラットフォームでは、処理を開始する前に、クラスターの個数を指定する必要があります。最尤法によって、混合割合、平均、標準偏差、相関係数といったパラメータが同時に推定されます。各点に、それぞれの各グループに属する事後確率が計算されます。推定値の反復計算にはEMアルゴリズムが使用されています。
• カテゴリカルデータの場合は、「潜在クラス分析」が適しています。「潜在クラス分析」プラットフォームでも、処理を開始する前に、クラスターの個数を指定する必要があります。多項分布の混合分布がモデルとして仮定されます。各データ行に対して、各クラスターに属する事後確率が計算されます。そして、属する事後確率が最も高いクラスターに分類されます。
手法 |
データタイプまたは尺度 |
データテーブルのサイズ |
クラスター数の指定 |
---|---|---|---|
階層型クラスター分析 |
すべて |
高速Ward法の場合、200,000行まで その他の手法の場合、5,000 行まで |
なし |
K Meansクラスター分析 |
数値 |
数百万行まで |
あり |
正規混合分布法 |
数値 |
制限なし |
あり |
潜在クラス分析 |
名義尺度または順序尺度 |
制限なし |
あり |
「クラスター分析」プラットフォームの中には、データの外れ値を扱うオプションを持つものもあります。しかし、データに外れ値が含まれている場合、分析する前に調べておくほうが良いでしょう。外れ値のチェックは、「外れ値の探索」ユーティリティによって行えます。詳細については、『予測モデルおよび発展的なモデル』の「外れ値を調べる」ユーティリティを参照してください。