多変量分析 > 階層型クラスター分析 > 「階層型クラスター分析」プラットフォームの起動
公開日: 09/19/2023

「階層型クラスター分析」プラットフォームの起動

「階層型クラスター分析」プラットフォームを起動するには、[分析]>[クラスター分析]>[階層型クラスター分析]を選択します。

図13.4 「階層型クラスター分析」の起動ウィンドウ 

「階層型クラスター分析」の起動ウィンドウ

「列の選択」の赤い三角ボタンのメニューのオプションについては、『JMPの使用法』の列フィルタメニューを参照してください。

Y, 列

クラスター分析の対象となる変数を指定します。

順序

ここで指定された列に基づいて、クラスターを平均値の順に並べることができます。

ヒント: たとえば、主成分分析で得られた第1主成分スコアを、[順序]列に指定すると、主成分スコアでクラ スターが並べられます。

属性のID

(データの構造に[積み重ねたデータ]を選択した場合のみ表示されます。)積み重ねた変数を指定します。

対象のID

(データ構造に[要約したデータ]または[積み重ねたデータ]を選択した場合のみ表示されます。)測定値が積み重なった各ユニットの一意の識別子を含む列を指定します。

ラベル

レポートの樹形図のラベルに使用する列を指定します。

メモ: データ構造に[データは距離行列]を選択した場合、ラベルには文字タイプの列を指定する必要があります。

By

この列の水準に従ってデータがグループ化され、それぞれ個別に分析されます。指定した列の水準ごとに、対応する行が分析されます。分析結果は、個別のレポートにまとめられます。複数のBy変数を割り当てた場合、それらのBy変数の水準の組み合わせごとに個別に分析が行われます。

手法

クラスターを定義するために使用する距離の計算法を指定します。どの方法でも、距離が最小になるようにクラスターが結合されます。詳細については、各手法における距離の統計的詳細を参照してください。

Ward法

2つのクラスター間の距離は、分散分析のクラスター間平方和をすべての変数について合計したものとして計算されます。クラスター内平方和が最小化されるように、クラスターを結合していきます。クラスター間平方和は、全体平方和で割って分散比(半偏相関の2乗)を求めると解釈しやすくなります。

Ward法は、多変量の正規混合分布、球面性の共分散行列、等しい抽出確率という仮定のもとでの尤度が最大になるようにクラスターを結合していきます。

Ward法では、オブザベーション数が少ないクラスターが結合される傾向にあり、オブザベーション数がほぼ同じクラスターができてしまいます。また、外れ値に対して非常に敏感です。Milligan(1980)を参照してください。

群平均法

2つのクラスター間の距離は、各クラスターに属する点のペアの距離を平均したものです。群平均法では、分散の小さいクラスターが結合され、クラスターの分散が等しくなってしまう傾向が多少あります。Sokal and Michener(1958)を参照してください。

重心法

2つのクラスター間の距離は、その平均間のユークリッド距離として定義されます。重心法は、他の階層型クラスター分析方法より外れ値に対して頑健性がありますが、それ以外の点ではWard法や群平均法に劣ることがあります。Milligan(1980)を参照してください。

最短距離法

2つのクラスターから1点ずつを選択したときに距離が最短になる2点間の距離を、クラスター間の距離とします。最短距離法は、論理的に見て望ましい性質を持っています。しかし、モンテカルロ実験では良い結果が出ていません。それについては、Jardine and Sibson(1971)、Fisher and Van Ness(1971)、Hartigan(1981)、Milligan(1980)を参照してください。この方法はFlorek et al.(1951a1951b)によって考案され、後にMcQuitty(1957)とSneath(1957)が再考案しました。

クラスターの形状が制約されないため、長く延びた不規則なクラスターができがちで、コンパクトなクラスターを形成することができません。最短距離法では、大きなクラスターに分離する前に、分布の裾が分離する傾向があります。Hartigan(1981)を参照してください。

最長距離法

2つのクラスターから1点ずつを選択したときに距離が最長になる2点間の距離を、クラスター間の距離とします。この方法ではクラスターの直径がほぼ同じになってしまう傾向が強く、それほど極端でない外れ値にも大きく影響されてしまうことがあります。Milligan(1980)を参照してください。

高速Ward法

Ward法に基づき、2つのクラスター間の距離を計算します。高速Ward法では、計算アルゴリズムとして最近傍連鎖法を使用します。この方法では、距離行列の計算が不要なため、より高速に処理できます。2000行を超えるデータには、自動的に高速Ward法が使用されます。

折衷型Ward法

このアルゴリズムでは、クラスタリングを2段階に分けて行います。第1段階では、前処理として、近傍結合のサイクルを使っていくつかのクラスターを生成します。折衷型Ward法における近傍結合の統計的詳細を参照してください。これにより、階層型クラスタリングに引き継がれるテーブルのサイズを縮小します。このサイクルを何度か実行し、一定数のクラスターを作成した後、Ward法を使って残りのクラスターを生成します。この方法は、クラスタリング対象の項目が、数万から数十万件に及ぶ場合に役立ちます。

メモ: この方法では、高速Ward法とは異なり、Ward法と同じ階層が生成されません。ただし、項目数が膨大な場合に、計算時間を短縮することができます。特に、演算コアが複数あり、近傍検索にマルチスレッドを使用できる場合に効果的です。

データ形式

分析に使用されるデータがどのような形式となっているかを選択します。

通常のデータ

分析に用いるデータが、オブザベーションごとに1行ずつあり、変数ごとに1列ずつある、通常の矩形データの場合には、このオプションを選択します。

要約したデータ

グループごとに平均を計算して、その要約された平均でクラスター分析したい場合には、このオプションを選択します。このオプションを選択すると、起動ウィンドウに[対象のID]ボックスが表示されます。グループ別にしたい列を[対象のID]に指定します。[要約したデータ]オプションは、それらの水準ごとに平均を計算し、それらを入力データとして扱います。

データは距離行列

データが距離を表している場合には、このオプションを選択します。対象がn個の場合、この距離データにはn個の行とn + 1個の列が必要です。1つの列(通常は第1列目)には、n個のオブザベーションそれぞれを一意に識別する値が含まれている必要があります。それ以外の列は、対象と対象との間の距離を表すn個の値が含まれている必要があります。次のことを注意してください。

ある点とその点自身との距離は0であるため、距離データの対角要素はすべて0です。0以外の値または欠測値は0として扱われ、レポートにその旨が記載されます。

距離データは、対称な正方行列か、欠測値を下側に含む上三角行列か、または、欠測値を上側に含む下三角行列でなければいけません。正方行列を使用する場合は、行列が対称でないと警告が表示されます。

別の形式のデータで分析をして、そこで距離行列を保存することもできます。距離行列の保存を参照してください。

[データは距離行列]オプションを選択した場合は、距離を含む列を[Y, 列]に指定し、識別する値を含む列を[ラベル]に指定します。[ラベル]に指定する列には文字型のデータが含まれている必要があります。例については、距離行列の例を参照してください。

積み重ねたデータ

関心のある応答が1つだけで、各対象に複数の行があるデータの場合は、このオプションを選択します。

[積み重ねたデータ]オプションを選択すると、起動ウィンドウに[属性のID]テキストボックスと[対象のID]テキストボックスが表示されます。

1つの列を[Y, 列]に指定します。

[Y, 列]変数のグループ化を説明する列を[属性のID]に指定します。2列だけを入力し、[空間的な指標の計算]を選択した場合は、クラスターの分析に使用する空間的な指標を追加できます。空間的な指標の計算を参照してください。

識別する値を含む列を[対象のID]に指定します。

このオプションで実行される分析の結果は、「Y, 列」変数を「属性のID」列で分割し、応答列を標準化せずに階層型クラスター分析を実行した場合と同じです。

ヒント: 2次元座標での観測値を分析する場合には、このオプションとともに[空間的な指標の計算]オプションも役立ちます。たとえば、ウエハーのダイごとに、1行ずつデータが記録されていたとします。この機能を用いると、ウエハーを空間的な指標を用いてクラスタリングできます。空間的な指標でウエハーの不適合をクラスタリングする例を参照してください。

注意: [積み重ねたデータ]で分析されるデータは、観測値が共通した1変数だけで測定されているので、多くの場合、[データの標準化]オプションは適切ではありません。

標準化の対象

クラスター分析の前にデータを標準化する方法を指定します。測定スケールの異なる連続尺度や順序尺度の列の、ばらつきを揃えられます。

非標準化

元のデータをそのまま使用します。

各列の値から、列の平均値を引き、列の標準偏差で割って標準化します。

各行の値から、行の平均値を引き、行の標準偏差で割って標準化します。

列と行の両方

まず、各値から列の平均値と行の平均値の両方を引き、その後、全体平均を足して標準化します。続けて、二重中心化されたデータの標準偏差を使って、値のスケールを調整します。

ロバスト推定値での標準化

連続尺度と順序尺度の列に対して、外れ値にあまり影響されない方法で平均と標準偏差を推定します。このオプションは、HuberのM推定(Huber 1964、Huber 1973、Huber and Ronchetti 2009)で推定された平均と標準偏差を用います。このオプションを用いた場合、外れ値となっている点を含む列が、通常の標準化を行ったときよりも、距離の計算に大きく寄与します。

メモ: 「標準化の対象」を使用し、且つ[ロバスト推定値での標準化]を選択した場合は、ロバストな平均と標準偏差が標準化に使用されます。

欠測値の補完

欠測値を補完します。変数の数が50以下か、行数の半分より少ない場合は、多変量正規分布による補完が行われます。その他の場合は、多変量の特異値分解による補完が行われます。

多変量正規分布による補完は、まず、ペアごとの共分散を計算して共分散行列を求めます。そして、各行において、欠測値を含まない列を説明変数として、欠測値部分の予測値を線形回帰モデルで求めます。ただし、各行での補完の計算で使われる共分散行列が正値定符号行列でない場合は、欠測値は列平均によって補完されます。

多変量の特異値分解による補完では、共分散行列を計算するのを避けるために、特異値分解を用います。『予測モデルおよび発展的なモデル』の欠測値を調べるを参照してください。

注意: このような欠測値補完では、データにはクラスターが存在せず1つの塊であること、データが単一の多変量正規分布に従っていること、および、欠測値が完全にランダムであることが仮定されています。これらの仮定は現実的ではないので、この機能には注意が必要です。しかし、欠測値を含むデータ行を破棄するよりは、有益な結果が出る可能性があります。

空間的な指標の計算

(「データ形式」で[積み重ねたデータ]を選択した場合にのみ使用可能。)データが積み重ねデータで、2つの属性が指定されており、それらが空間的な座標(たとえば、X座標とY座標)である場合には、このオプションが有用です。このオプションでは、不適合や不良のパターンをクラスタリングするのに、どの空間的指標を用いるかや、その重みを指定できます。これは特定の応用分野に対する手法で、半導体のウエハーなどの限られた分野でのみ役立ちます。空間的な指標の計算の統計的詳細および空間的な指標でウエハーの不適合をクラスタリングする例を参照してください。

変数間クラスター

(「データ形式」で[通常のデータ]または[要約したデータ]を選択した場合にのみ使用可能。)行と同様に、指定した列でもクラスタリングを行います。行のクラスターの樹形図のほか、Y変数の樹形図とカラーマップも表示されます。通常、列の値は同じスケールで測定されていなければならず、データを標準化しないことが前提となります。

詳細オプション

折衷型Ward法の詳細オプションを指定します。

Hybrid Goal

階層型クラスター分析処理への切り替えが可能なクラスター数を指定します。階層型クラスター分析処理の開始時に、クラスター数がこの指定値以下である必要があります。デフォルト値は400です。

Hybrid Cycles

階層型クラスター分析処理への切り替え前に実行する近傍結合サイクルの最小数を指定します。デフォルト値は30です。

Hybrid Initial K

近傍結合サイクルで使用する近傍点の個数の初期値を指定します。この近傍点の個数は、直前のサイクルで見つかった近傍点の個数によって、増減します。デフォルト値は10です。

Hybrid RandomPCA Dim

乱択主成分分析の次元削減手法で使用する次元数を指定します。この手法は、折衷型乱択主成分分析の次元がゼロより大きい場合に使用され、処理をさらに高速化します。乱択主成分分析の手法では、主成分の近似値を計算し、点間の近似的な距離を求めることにより、次元を減らします。Halko, Martinsson, and Tropp(2011)を参照してください。

Hybrid Log Details

折衷型Ward法のステータスやそのタイミングをログに表示するかどうかを指定します。

保存されたクラスターデータの使用

クラスター履歴のデータテーブルを使用してクラスタリングします。

「欠測値でないデータが不足しています。」の警告

[要約したデータ]または[積み重ねたデータ]を使用している場合は、「欠測値でないデータが不足しています。」というJMPの警告の意味がわかりにくいかもしれません。この警告は、以下のような場合に表示されます。

「データ形式」で[通常のデータ]を選択し、0~1行以外のすべての行において、「Y, 列」変数の少なくとも1つが欠測値となっている場合。

「データ形式」で[要約したデータ]を選択し、「対象のID」列で要約したときに、0~1行以外のすべての行において、要約された「Y, 列」変数の少なくとも1つが欠測値の場合。クラスター分析されるデータを確認するには、[テーブル]>[要約]を選択し、「対象のID」列を[グループ化]に、「Y, 列」変数を[統計量]>[平均]に指定してください。

「データ形式」で[積み重ねたデータ]を選択し、「属性のID」列で分割したときに、0~1行以外のすべての行において、分割された「Y, 列」変数の少なくとも1つが欠測値の場合。クラスター分析されるデータを確認するには、[テーブル]>[列の分割]を選択し、「属性のID」列を[基準となる列]に、「Y, 列」変数を[分割する列]に、「対象のID」列を[グループ化]に指定してください。

ヒント: ログには欠測値のあるオブジェクトを特定するメッセージも出力されます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).