公開日: 09/19/2023

「分位点範囲の外れ値」レポート

「外れ値を調べる」プラットフォームの「分位点範囲の外れ値」レポートには、複数のタブに整理された一連のコントロールと結果が含まれています。

「分位点範囲の外れ値」のコントロール

「分位点範囲の外れ値」のコントロールを使用して、外れ値を特定する方法を指定できます。上側分位点もしくは下側分位点から、分位点範囲(上側分位点と下側分位点の差)をQ倍したもの以上離れている点がすべて外れ値とみなされます。Qの値と何パーセントの分位点にするかは、変更できます。

図21.6 [分位点範囲の外れ値]のオプション 

[分位点範囲の外れ値]のオプション

裾の分位点

分位点範囲を計算するために使われる下側分位点の累積確率。なお、上側分位点の累積確率は、1から裾の分位点の値を引いたものとみなされます。たとえば、この「裾の分位点」に0.1が指定された場合、分位点範囲は、90%分位点から10%分位点を引いたものです。デフォルトの値は0.1です。

Q

外れ値の閾値を決定する乗数。下側分位点と上側分位点からQ倍の分位点範囲以上、離れている値は、外れ値とみなされます。Qの値を大きくするほど、離れている点も外れ値とみなされなくなります。デフォルトの値は3です。

検索を整数に限定

外れ値の候補として取り上げるデータ値を整数だけに限定します。この機能は、欠測値コードやエラーコードを見つけるのに役立ちます。

再スキャン

何らかの外れ値の処理をした後に、レポートを再計算したい場合には、この[再スキャン]を行ってください。

ヒント: Ctrlキーを押しながら[再スキャン]をクリックすると、開いているすべての外れ値の手法にわたって再スキャンできます。

閉じる

「分位点範囲の外れ値」レポートを閉じます。

ヒント: Ctrlキーを押しながら[閉じる]をクリックすると、開いているすべてのレポートを閉じることができます。

列ごとの要約

「分位点範囲の外れ値」レポートの[列ごとの要約]タブには、コントロールで指定された設定によって検出された外れ値を含む列の表が含まれています。この表には、上側分位点と下側分位点、そして上側閾値と下側閾値が表示されます。上側閾値と下側閾値の外側にある値は、外れ値とみなされます。各列の外れ値の個数も表示されます。外れ値となっているデータの値は、表の最後の列に表示されます。1つの列でデータ値が重複している外れ値については、その個数が括弧内に示されます。

[列ごとの要約]タブには、外れ値の表で1つ以上の行が選択されている場合に適用できる、以下のオプションがあります。

外れ値のある列のみ表示

[列ごとの要約]タブの表から、外れ値のない列を削除します。

データテーブルの外れ値を特定する

外れ値の要約表で選択した行に対し、元のデータテーブルにアクションを適用します。

行の選択

外れ値を含む行を選択します。

行の除外

[行の除外]属性を適用します。この処理が終わった後、「分位点範囲の外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

セルの色

外れ値を含むセルに色をつけます。下側の外れ値は青色、上側の外れ値は赤色で表示されます。

行の色分け

外れ値を含む行に色をつけます。

データテーブルの外れ値を削除する

外れ値の要約表で選択した行に対し、元のデータテーブルにアクションを適用します。

「欠測値のコード」に追加

外れ値を、その列の「欠測値のコード」列プロパティに追加します。このオプションを使うと、欠測値コードやエラーコードを、欠測値として定義できます。欠測値コードやエラーコードは、整数であることが多く、また、9がいくつか並んで表されることが多いです。この処理が終わった後、「分位点範囲の外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

メモ: 起動ウィンドウでBy変数を指定した場合は、「分位点範囲の外れ値」で[「欠測値のコード」に追加]を使用することはできません。

欠測値に変更

外れ値を欠測値に置換します。データ値を欠測値に置換するには注意が必要です。データが無効か、正確でないとわかっている場合にのみ、データ値を欠測値に置換してください。この処理が終わった後、「分位点範囲の外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

メモ: 選択した外れ値が「欠測値のコード」列プロパティに追加されている場合、その外れ値は欠測値に変更されません。

計算列の新規作成

列ごとに新しい計算式列を作成して、外れ値を欠測値に設定します。新しい列には、元の列と区別するために、ユーザ指定の接頭辞または接尾辞が付けられます。デフォルトの接尾辞は「外れ値削除」です。

計算スクリプトの作成

データテーブルに追加されるスクリプトを作成します。スクリプトが実行されると、列ごとに新しい計算式列を作成して、外れ値を欠測値に設定します。新しい列には、元の列と区別するために、ユーザ指定の接頭辞または接尾辞が付けられます。デフォルトの接尾辞は「外れ値削除」です。

セルごとの外れ値

「分位点範囲の外れ値」レポートの[セルごとの外れ値]タブには、コントロールで指定された設定によって検出された個々の外れ値を含む表が含まれています。この表には、列名、行番号、外れ値距離、および個々の外れ値の実際の値が表示されます。外れ値距離は、外れ値がどの程度極端であるかの指標であり、以下の式を使用して計算されます。

外れ値距離 = ここに式を表示

ここで

x = 外れ値の実際の値

m = 外れ値が含まれている列の中央値

IQR = 指定された裾の分位点を使用した分位点範囲

外れ値距離が大きいほど、極端な外れ値であることを示します。

[セルごとの外れ値]タブには、外れ値の表で1つ以上の行が選択されている場合に適用できる、以下のオプションがあります。

データテーブルの外れ値を特定する

外れ値の要約表で選択した行に対し、元のデータテーブルにアクションを適用します。

行と列を選択

選択されている外れ値に対応する行と列を選択します。

セルの色

データテーブルで外れ値を含むセルに色をつけます。下側の外れ値は青色、上側の外れ値は赤色で表示されます。

データテーブルの外れ値を削除する

外れ値の要約表で選択した行に対し、元のデータテーブルにアクションを適用します。

「欠測値のコード」に追加

レポートで選択されている列の外れ値を、その列の「欠測値のコード」列プロパティに追加します。このオプションを使うと、欠測値コードやエラーコードを、欠測値として定義できます。欠測値コードやエラーコードは、整数であることが多く、また、9がいくつか並んで表されることが多いです。この処理が終わった後、「分位点範囲の外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

メモ: 起動ウィンドウでBy変数を指定した場合は、「分位点範囲の外れ値」で[「欠測値のコード」に追加]を使用することはできません。

欠測値に変更

外れ値を欠測値に置換します。データ値を欠測値に置換するには注意が必要です。データが無効か、正確でないとわかっている場合にのみ、データ値を欠測値に置換してください。この処理が終わった後、「分位点範囲の外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

メモ: 選択した外れ値が「欠測値のコード」列プロパティに追加されている場合、その外れ値は欠測値に変更されません。

行ごとの要約

[行ごとの要約]タブには、コントロールで指定された設定によって検出された外れ値を含む行の表が含まれています。この表には、行番号と、その行で検出された外れ値の数が表示されます。

[行ごとの要約]タブには、外れ値の表で1つ以上の行が選択されている場合に適用できる、以下のオプションがあります。

データテーブルの外れ値を特定する

外れ値の要約表で選択した行に対し、元のデータテーブルにアクションを適用します。

行の選択

外れ値を含む行を選択します。

行の除外

[行の除外]属性を適用します。この処理が終わった後、「分位点範囲の外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

行の色分け

外れ値を含む行に色をつけます。

「9」を含むデータ

「分位点範囲の外れ値」レポートの[「9」を含むデータ]タブには、欠測値コードかもしれないデータ値を含む列の表があります。欠測値コードの候補として取り上げられるデータ値は、上側分位点よりも大きな値で、かつ、すべての数値が9となっているもの(たとえば9999)のなかで、最大となっているものです。それらが頻出している場合、それらの外れ値は実際には欠測値コードであると考えられます。それらの度数が少ない場合は、単なる外れ値であるのか、それとも、欠測値コードであるのかを、さらに調べる必要があります。この表には、上位分位点も表示されます。

[「9」を含むデータ]タブは、欠測値コードかもしれないデータ値が特定された場合にのみ表示されます。

[「9」を含むデータ]タブには、表で1つ以上の行が選択されている場合に選択できる、以下のオプションがあります。

「欠測値のコード」に最大「9」を追加

外れ値と認識されたデータ値が「欠測値のコード」列プロパティに追加されます。この処理の後、「分位点範囲の外れ値」レポートを再計算するには、[再スキャン]をクリックしてください。

メモ: 起動ウィンドウでBy変数を指定した場合は、「分位点範囲の外れ値」で[「欠測値のコード」に最大「9」を追加]を使用することはできません。

最大「9」を欠測値に変更

データテーブルにおいて、外れ値と認識されたデータ値を欠測値に置換します。

メモ: データを変更する処理([欠測値に変更]や[行の除外]など)を最初に選択した際、元のデータを保持するために[名前を付けて保存]コマンドを使ってデータテーブルを新しいファイルとして保存するよう求める警告ウィンドウが表示されます。このウィンドウが表示されたら、[OK]をクリックしてください。また、新しいデータテーブルを保存すると選択した場合、新しい名前でファイルを保存するダイアログが表示されます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).