公開日: 04/01/2021

クラスター分析用プラットフォームの概要

クラスタリングは、多変量データをもとに、値が近い行をグループにまとめていく手法です。通常、データ点はp次元空間全体に均等に散らばっておらず(pは変数の個数)、いくつかの塊(クラスター)になっています。それらのクラスターを見つけ出すと、データをよりよく理解できるようになるでしょう。

注: JMPには、変数をクラスタリングするためのプラットフォームも用意されています。変数のクラスタリングを参照してください。

JMPには、データ行(オブザベーション)をクラスタリングするためのプラットフォームが4つ用意されています。

「階層型クラスター分析」は、数千行までの小さなテーブルに適しており、文字データにも対応しています。行がツリー型の階層構造にまとめられます。クラスタリングの処理が終わった後でも、クラスターの個数を変更することができます。

「K Meansクラスター分析」は、数十万行までの大きいデータに適しています。この分析は、数値データだけに対応しています。処理を開始する前に、クラスターの数kを指定する必要があります。まず、適切と思われるシード点が推定されます。その後、各点をクラスターに割り当てる作業とクラスター中心を再計算する作業が交互に繰り返されます。

「正規混合」は、複数の多変量正規分布の混合分布から得られた、重なりがあるデータに適しています。この分析は、数値データだけに対応しています。外れ値があるような場面では、それらの外れ値を表すために、一様分布に従うと仮定したクラスターを使用できます。

「正規混合」プラットフォームでは、処理を開始する前に、クラスターの個数を指定する必要があります。最尤法によって、混合割合、平均、標準偏差、相関係数といったパラメータが同時に推定されます。各点に、それぞれの各グループに属する事後確率が計算されます。推定値の反復計算にはEMアルゴリズムが使用されています。

カテゴリカルデータの場合は、「潜在クラス分析」が適しています。「潜在クラス分析」プラットフォームでも、処理を開始する前に、クラスターの個数を指定する必要があります。多項分布の混合分布がモデルとして仮定されます。各データ行に対して、各クラスターに属する事後確率が計算されます。そして、属する事後確率が最も高いクラスターに分類されます。

表14.1 クラスター分析の手法のまとめ

手法

データタイプまたは尺度

データテーブルのサイズ

クラスター数の指定

階層型クラスター分析

すべて

高速Ward法の場合、200,000行まで

その他の手法の場合、5,000 行まで

なし

K Meansクラスター分析

数値

数百万行まで

あり

正規混合分布法

数値

制限なし

あり

潜在クラス分析

名義尺度または順序尺度

制限なし

あり

「クラスター分析」プラットフォームの中には、データの外れ値を扱うオプションを持つものもあります。しかし、データに外れ値が含まれている場合、分析する前に調べておくほうが良いでしょう。外れ値のチェックは、「外れ値の探索」ユーティリティによって行えます。詳細については、『予測モデルおよび発展的なモデル』の「外れ値を調べる」ユーティリティを参照してください。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).