クラスター分析用プラットフォームの概要

多変量分析 > K Meansクラスター分析 > 「K Meansクラスター分析」プラットフォームの概要 > クラスター分析用プラットフォームの概要

公開日: 11/25/2021

クラスター分析用プラットフォームの概要

クラスタリングは、多変量データをもとに、値が近い行をグループにまとめていく手法です。通常、データ点はp次元空間全体に均等に散らばっておらず（pは変数の個数）、いくつかの塊（クラスター）になっています。それらのクラスターを見つけ出すと、データをよりよく理解できるようになるでしょう。

メモ: JMPには、変数をクラスタリングするためのプラットフォームも用意されています。変数のクラスタリングを参照してください。

JMPには、データ行（オブザベーション）をクラスタリングするためのプラットフォームが4つ用意されています。

• 「階層型クラスター分析」は、数千行までの小さなテーブルに適しており、文字データにも対応しています。行がツリー型の階層構造にまとめられます。クラスタリングの処理が終わった後でも、クラスターの個数を変更することができます。

• 「K Meansクラスター分析」は、数十万行までの大きいデータに適しています。この分析は、数値データだけに対応しています。処理を開始する前に、クラスターの数kを指定する必要があります。まず、適切と思われるシード点が推定されます。その後、各点をクラスターに割り当てる作業とクラスター中心を再計算する作業が交互に繰り返されます。

• 「正規混合」は、複数の多変量正規分布の混合分布から得られた、重なりがあるデータに適しています。この分析は、数値データだけに対応しています。外れ値があるような場面では、それらの外れ値を表すために、一様分布に従うと仮定したクラスターを使用できます。

「正規混合」プラットフォームでは、処理を開始する前に、クラスターの個数を指定する必要があります。最尤法によって、混合割合、平均、標準偏差、相関係数といったパラメータが同時に推定されます。各点に、それぞれの各グループに属する事後確率が計算されます。推定値の反復計算にはEMアルゴリズムが使用されています。

• カテゴリカルデータの場合は、「潜在クラス分析」が適しています。「潜在クラス分析」プラットフォームでも、処理を開始する前に、クラスターの個数を指定する必要があります。多項分布の混合分布がモデルとして仮定されます。各データ行に対して、各クラスターに属する事後確率が計算されます。そして、属する事後確率が最も高いクラスターに分類されます。

表13.1 クラスター分析の手法のまとめ
方法	データタイプまたは尺度	データテーブルのサイズ	クラスター数の指定
階層型クラスター分析	すべて	高速Ward法の場合、 200,000行までその他の手法の場合、 5,000 行まで	なし
K Meansクラスター分析	数値	数百万行まで	あり
正規混合分布法	数値	制限なし	あり
潜在クラス分析	名義尺度または順序尺度	制限なし	あり

「クラスター分析」プラットフォームの中には、データの外れ値を扱うオプションを持つものもあります。しかし、データに外れ値が含まれている場合、分析する前に調べておくほうが良いでしょう。外れ値のチェックは、「外れ値を調べる」ユーティリティによって行えます。詳細については、『予測モデルおよび発展的なモデル』の「外れ値を調べる」ユーティリティを参照してください。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).