連続尺度や順序尺度の列に対して、ばらつきを揃えます。[積み重ねたデータ]オプションが選択されている場合を除き、各列の値は、列の平均を引いて列の標準偏差で割ることにより標準化されます。[データの標準化]チェックボックスの選択を解除すると、標準化した値ではなく、生データによって距離が計算されます。
連続尺度と順序尺度の列に対して、外れ値にあまり影響されない方法で平均と標準偏差を推定します。このオプションは、HuberのM推定(Huber 1964、Huber 1973、Huber and Ronchetti 2009)で推定された平均と標準偏差を用います。このオプションを用いた場合、外れ値となっている点を含む列が、通常の標準化を行ったときよりも、距離の計算に大きく寄与します。
メモ: [データの標準化]と[ロバスト推定値での標準化]のチェックボックスの両方ともオンにした場合は、列ごとにロバストな推定値で標準化されます。すなわち、列ごとに、その列のロバストな平均を引いた後、その列のロバストな標準偏差で割られます。このような標準化は、各列がそれぞれ異なる尺度で測定されている場合、または、特定の列にのみ外れ値がある場合に有用です。
メモ: [データの標準化]チェックボックスがオフで、[ロバスト推定値での標準化]チェックボックスがオンの場合には、すべての列の値から計算されたロバストな平均と標準偏差が各列の標準化に使用されます。これは、すべての列が同じ尺度が測定されていて、かつ、すべての次元で外れ値となるデータがあるような場合に有用です。
多変量の特異値分解による補完では、共分散行列を計算するのを避けるために、特異値分解を用います。詳細については、『予測モデルおよび発展的なモデル』の「モデル化ユーティリティ」章を参照してください。
(データの構造に[積み重ねたデータ]を選択した場合にのみ表示されます。)データが積み重ねデータで、2つの属性が指定されており、それらが空間的な座標(たとえば、X座標とY座標)である場合には、[空間的な指標の計算]オプションが有用です。このオプションでは、不適合や不良のパターンをクラスタリングするのに、円・扇形・筋といった空間的指標のどれを用いるかを選択できます。これは特定の応用分野に対する手法で、半導体のウエハーなどの限られた分野でのみ役立ちます。第 “空間的な指標”および第 “空間的な指標でウエハーの不適合をクラスタリングする例”を参照してください。