公開日: 11/25/2021

「Y, 列」変数の変換

以下のオプションによって、クラスター分析に使用する「Y, 列」変数を事前にどのように処理するかを変更できます。

データの標準化

連続尺度や順序尺度の列に対して、ばらつきを揃えます。[積み重ねたデータ]オプションが選択されている場合を除き、各列の値は、列の平均を引いて列の標準偏差で割ることにより標準化されます。[データの標準化]チェックボックスの選択を解除すると、標準化した値ではなく、生データによって距離が計算されます。

ロバスト推定値での標準化

連続尺度と順序尺度の列に対して、外れ値にあまり影響されない方法で平均と標準偏差を推定します。このオプションは、HuberのM推定(Huber 1964、Huber 1973、Huber and Ronchetti 2009)で推定された平均と標準偏差を用います。このオプションを用いた場合、外れ値となっている点を含む列が、通常の標準化を行ったときよりも、距離の計算に大きく寄与します。

メモ: [データの標準化]と[ロバスト推定値での標準化]のチェックボックスの両方ともオンにした場合は、列ごとにロバストな推定値で標準化されます。すなわち、列ごとに、その列のロバストな平均を引いた後、その列のロバストな標準偏差で割られます。このような標準化は、各列がそれぞれ異なる尺度で測定されている場合、または、特定の列にのみ外れ値がある場合に有用です。

メモ: [データの標準化]チェックボックスがオフで、[ロバスト推定値での標準化]チェックボックスがオンの場合には、すべての列の値から計算されたロバストな平均と標準偏差が各列の標準化に使用されます。これは、すべての列が同じ尺度が測定されていて、かつ、すべての次元で外れ値となるデータがあるような場合に有用です。

欠測値の補完

欠測値を補完します。変数の数が50以下か、行数の半分より少ない場合は、多変量正規分布による補完が行われます。その他の場合は、多変量の特異値分解による補完が行われます。

多変量正規分布による補完は、まず、ペアごとの共分散を計算して共分散行列を求めます。そして、各行において、欠測値を含まない列を説明変数として、欠測値部分の予測値を線形回帰モデルで求めます。ただし、各行での補完の計算で使われる共分散行列が正値定符号行列でない場合は、欠測値は列平均によって補完されます。

多変量の特異値分解による補完では、共分散行列を計算するのを避けるために、特異値分解を用います。『予測モデルおよび発展的なモデル』の「欠測値を調べる」ユーティリティを参照してください。

注意: このような欠測値補完では、データにはクラスターが存在せず1つの塊であること、データが単一の多変量正規分布に従っていること、および、欠測値が完全にランダムであることが仮定されています。これらの仮定は現実的ではないので、この機能には注意が必要です。しかし、欠測値を含むデータ行を破棄するよりは、有益な結果が出る可能性があります。

空間的な指標の計算

(データの構造に[積み重ねたデータ]を選択した場合にのみ表示されます。)データが積み重ねデータで、2つの属性が指定されており、それらが空間的な座標(たとえば、X座標とY座標)である場合には、[空間的な指標の計算]オプションが有用です。このオプションでは、不適合や不良のパターンをクラスタリングするのに、どの空間的指標を用いるかや、その重みを指定できます。これは特定の応用分野に対する手法で、半導体のウエハーなどの限られた分野でのみ役立ちます。空間的な指標および空間的な指標でウエハーの不適合をクラスタリングする例を参照してください。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).