予測モデルおよび発展的なモデル > 外れ値を調べる > 「外れ値を調べる」プラットフォームの起動
公開日: 09/19/2023

「外れ値を調べる」プラットフォームの起動

「外れ値を調べる」を起動するには、[分析]>[スクリーニング]>[外れ値を調べる]を選択します。

メモ: 「外れ値を調べる」のコマンドで分析できるのは連続尺度の列のみです。連続尺度以外の列も起動ウィンドウで指定できますが、無視されます。

図21.5 「外れ値を調べる」プラットフォームの起動ウィンドウ 

「外れ値を調べる」プラットフォームの起動ウィンドウ

「列の選択」の赤い三角ボタンのメニューのオプションについては、『JMPの使用法』の列フィルタメニューを参照してください。

Y, 列

分析する列を指定します。

検証

[ロバスト主成分分析による外れ値]で使用する検証列を指定します。

ラベル

多変量分析レポートで、行番号の代わりにラベルとして表示する列を指定します。

By

別々に分析を行いたいときに、そのグループ分けをする変数を指定します。指定された列の水準ごとに、別々に分析が行われます。各水準の結果は別々のレポートに表示されます。複数のBy変数を割り当てた場合、それらのBy変数の水準の組み合わせごとに個別のレポートが作成されます。

ヒント: By変数のすべての水準に対して外れ値分析を実行するには、Ctrlキーを押しながら目的の外れ値分析コマンドのボタンをクリックします。

[OK]をクリックすると、「外れ値を調べる」レポートが開きます。このレポートには、一変量と多変量のデータの外れ値を見つける手法がいくつか含まれています。各手法には、選択する前に指定できるオプションがあります。

一変量

一変量データで外れ値を探索するためのオプションが2つあります。

分位点範囲の外れ値

一変量の分位点に基づいて、極端な値としての外れ値を識別します。このツールは、データ中の欠測値コードやエラーコードを見つけるのに便利です。まずこのツールから、外れ値の探索を始めると良いでしょう。分位点範囲の外れ値を参照してください。以下のオプションを指定できます。

裾の分位点

分位点範囲を計算するために使われる下側分位点の累積確率。なお、上側分位点の累積確率は、1から裾の分位点の値を引いたものとみなされます。たとえば、この「裾の分位点」に0.1が指定された場合、分位点範囲は、90%分位点から10%分位点を引いたものです。デフォルトの値は0.1です。

Q

外れ値の閾値を決定する乗数。下側分位点と上側分位点からQ倍の分位点範囲以上、離れている値は、外れ値とみなされます。Qの値を大きくするほど、離れている点も外れ値とみなされなくなります。デフォルト値は3です。

ロバスト推定による外れ値

各列の中心と散らばりをロバストに推定し、それらの推定値に基づき、遠く離れているデータ値を外れ値として識別します。ロバスト推定による外れ値を参照してください。以下のオプションを指定できます。

Kシグマ(k×σ)

中心からちらばりのK倍以上離れているデータ値を外れ値とみなします。Kの値を大きくするほど、離れている点が外れ値と見なされなくなります。デフォルト値は4です。

Huber

HuberのM推定を使用して、中心とちらばりを求めます。これがデフォルトのオプションです。Huber and Ronchetti(2009)を参照してください。

Cauchy

Cauchy分布に従うと仮定して、中心とちらばりを推定します。Cauchy分布を仮定した推定は、破綻点(breakpoints)が高く、通常、Huber推定よりもロバストです。ただし、複数のクラスターにデータが分かれている場合、互いに近くなっている半分のデータだけしか考慮せず、残り半分のデータを完全に無視する傾向があります。

四分位点

中心の推定値として中央値を使用し、ちらばりの推定値として四分位範囲(IQR)を1.34898で割った値を使用します。正規分布においては、IQRを1.34898で割った値は標準偏差です。

多変量

多変量データで外れ値を探索するためのオプションが2つあります。

ロバスト主成分分析による外れ値

データの行列を、低ランク近似行列と残差行列に分解し、その残差を使って外れ値を検出します。ロバスト主成分分析による外れ値を参照してください。Lambdaの値を指定し、データを中心化するかどうかを選択できます。高度なオプションを設定するには、Shiftキーを押しながら[ロバスト主成分分析による外れ値]ボタンをクリックして、[ロバスト主成分分析による外れ値]ウィンドウを表示します。

Lambda

残差行列の希薄性を決定する値を指定します。Lambdaの値が大きいほど、残差行列も希薄になります。n個の学習行とp個の列があるデータの場合、Lambdaのデフォルト値は以下のように定義されます。

ここに式を表示

最大反復回数

特異値分解の反復の最大回数を指定します。デフォルトの反復回数は100です。起動ウィンドウで20,000個を超える列が指定されている場合は、デフォルトの反復回数が50になります。

メモ: 最大反復回数を超えてもアルゴリズムが収束しない場合は、警告が表示されます。そこで、さらに反復を続行するか、キャンセルすることができます。[キャンセル]をクリックして、より緩い収束基準が満たされた場合は、結果が表示されます。[キャンセル]をクリックして、より緩い収束基準も満たされない場合は、結果を受け入れるかどうかを尋ねる別の警告が表示されます。

収束基準

アルゴリズムをいつ停止するかを決定します。デフォルトの収束基準値は、起動時に指定された列の数に基づいて設定されます。

列数が2,000個未満の場合、デフォルト値は1e-7です。

列数が2,000個以上の場合、デフォルト値は1e-6です。

列数が20,000個以上の場合、デフォルト値は1e-5です。

より緩い収束基準は、元の収束基準の1000倍に設定されます。

外れ値の閾値

「大きい残差のセル」の表に表示される外れ値を決定するための、外れ値の閾値を指定します。標準化残差が以下の値より大きい場合は、オブザベーションが表示されます。

min[0.99 × max{abs(scaled residuals)}, 外れ値の閾値]

外れ値の閾値のデフォルト値は2です。外れ値の閾値に2を使用して、外れ値が100万個を超えた場合、外れ値の閾値は3に変更されます。

中心化

「ロバスト主成分分析による外れ値」のアルゴリズムが実行される前にデータを中心化するかどうかを決定します。

メモ: 行の数が10個以下の場合、そのデータは中心化されません。

標準化

「ロバスト主成分分析による外れ値」のアルゴリズムが実行される前にデータを標準化するかどうかを決定します。

メモ: 行の数が10個以下の場合、そのデータは標準化されません。

横長データに対する乱択特異値分解

(起動ウィンドウで1000個以上の列を指定した場合にのみ使用可能。)Lanczos法の代わりに乱択特異値分解法を使用してデータを分解します。このオプションを使用すると、横長のデータに対するロバスト主成分分析による外れ値の計算が速くなります。「乱択特異値分解」を参照してください。

乱択特異値分解の次元

(起動ウィンドウで1000個以上の列を指定した場合にのみ使用可能。)乱択特異値分解で使用される次元数を指定します。

K近傍法外れ値

K番目の近傍点からの距離が遠いものを、外れ値として識別します。K近傍法外れ値を参照してください。以下のオプションを指定できます。

K

考慮される最も遠い近傍の上限を指定します。デフォルト値は8です。

欠測値の補完

欠測値を補完するかどうかを指定します。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).