多変量分析 > K Meansクラスター分析 > 「K Meansクラスター分析」プラットフォームの概要
公開日: 09/19/2023

「K Meansクラスター分析」プラットフォームの概要

「K Meansクラスター分析」プラットフォームは、事前に指定されたクラスター数(クラスターの個数)に対して、反復アルゴリズムを用います。まず、クラスター数と同数のk個の点が選択されます。この点は、「クラスターシード」と呼ばれており、クラスターの平均を示す最初の推定値です。そして、最も近くにあるクラスターシードに各データ行が割り振られます。次に、クラスターごとに平均を計算し、既存のクラスターシードをそれらの新しく計算された平均に置き換えます。そして、そのように新しく計算されたクラスターシードに、データ行が再び割り振られます。この処理が反復されると、最後にはクラスターシードの平均や割り振りに変化が生じない状態になります。

k-means法のこのようなアルゴリズムは、EMアルゴリズムの特殊形態です。EMアルゴリズムのEは期待値(Expectation)、Mは最大化(Maximization)を意味します。k-means法のアルゴリズムでは、クラスター平均の計算が「期待値」のEステップで、最も近いクラスターへの点の割り当てが「最大化」のMステップになっています。

「K Meansクラスター分析」プラットフォームでは、数値の列しか使用できません。モデルの尺度タイプ(名義尺度、順序尺度)は無視され、すべての数値列が連続尺度として扱われます。

「K Meansクラスター分析」プラットフォームでは、事前にクラスター数k(またはkの範囲)を指定しておく必要があります。ただし、さまざまなkの結果を比べて、データに最もふさわしいだろうクラスター数を後から選択することはできます。

K-Means法の背景については、SAS Institute Inc.(2020d)の「FASTCLUS Procedure」章およびHastie et al.(2009)を参照してください。

JMPには、データ行をクラスタリングするためのプラットフォームが4つ用意されています。「K Meansクラスター分析」は、そのなかの1つです。4つの手法の比較については、クラスター分析用プラットフォームの概要を参照してください。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).