『JMPの使用法』 > 列情報ウィンドウ > 列プロパティ > プラットフォームでの列の使用を制御するプロパティ
公開日: 04/01/2021

プラットフォームでの列の使用を制御するプロパティ

次のプロパティは、列がプラットフォームでどのように使用されるかを制御します。

分布

時間の単位

地図の役割

上位カテゴリ

多重応答

利益行列

欠測値をカテゴリとして扱う

分布

連続尺度の数値データを持つ列の場合、[分布]プロパティを使用して、列にあてはめる分布の種類を選びます。この分布は「一変量の分布」プラットフォーム、および特定の条件下での「工程能力分析」プラットフォームで使用されます。分布と工程能力分布を参照してください。

その列に対して「一変量の分布」レポートを作成すると([分析]>[一変量の分布]を選択)、常に、指定された分布を使って自動的にあてはめが行われます。あてはめた分布を表す曲線は、ヒストグラム上で重ねて表示されます。

「分布」と「仕様限界」の両方のプロパティを設定した場合、「一変量の分布」レポートでは、「分布」列プロパティで指定した分布に基づいて「工程能力分析」レポートが作成されます。

注: 古いデータテーブルで、列に仕様限界を指定する目的で「工程能力分析」列プロパティが割り当てられている場合があります。今後は、「仕様限界」プロパティを使用するようにしてください。

分布と工程能力分布

「工程能力分析」プラットフォームを使用して「工程能力分布」プロパティを含まない列を分析する場合は、「分布」列プロパティで指定した分布に基づいて、「工程能力分析」プラットフォームで非正規のあてはめが行われます。

「分布」プロパティで指定した分布が「工程能力分析」プラットフォームでサポートされている場合は、指定した分布が用いられます。

「分布」プロパティで指定した分布が「工程能力分析」プラットフォームでサポートされていない場合は、Johnsonのあてはめが用いられます。

1つの列に「分布」と「工程能力分布」の両方の列プロパティが保存されている場合、これらのプロパティは次のように動作します。

「分布」列プロパティで指定した分布は「一変量の分布」プラットフォームで用いられます。

「工程能力分布」列プロパティで指定した分布は「工程能力分析」プラットフォームで用いられます。

時間の単位

「時系列分析」プラットフォームを使用する際、データに[時間の単位]プロパティを割り当てることができます。[時間の単位]プロパティでは、データがレポートされる周期を指定できます(年、四半期、月など)。時間の単位を指定することにより、うるう年やうるう日などが考慮されます。周期を指定しなければ、データは等間隔の時間をあけた数値データとして扱われます。

地図の役割

(国、州、郡、国など)境界線のデータを含むデータテーブルを作成し、それに対応する地図をグラフビルダーで見たい場合、[地図の役割]プロパティを使用します。

次の点に留意してください。

独自の境界線データが、デフォルトで決められている地図ディレクトリにある場合、-Nameファイル内で「地図の役割」プロパティを指定しておけば地図を表示できます。

独自の境界線データが別の場所にある場合、-Nameファイル内と分析を行うデータテーブル内の両方で「地図の役割」プロパティを指定する必要があります。

[地図の役割]プロパティを指定する両方の列に、同じ境界線の名前が含まれている必要がありますが、列名自体は異なっていてもかまいません。

「地図の役割」プロパティを使用した例については、『グラフ機能』の地図の役割を参照してください。

-Nameデータテーブルに「地図の役割」プロパティを追加するには

1. 境界線を含む列を右クリックし、[列プロパティ]>[地図の役割]を選びます。

2. [シェープ名の定義]を選びます。

3. [OK]をクリックします。

4. データテーブルを保存します。

分析するデータテーブルに「地図の役割」プロパティを追加するには

注: この手順は、カスタム境界線ファイルがデフォルトのカスタム地図ディレクトリにない場合にのみ行ってください。

1. 境界線を含む列を右クリックし、[列プロパティ]>[地図の役割]を選びます。

2. [使用するシェープ名]を選びます。

3. 「地図の名前データテーブル」の横にあるImage shown hereをクリックして-Name地図データテーブルを参照します。相対パスまたは絶対パスを入力できます。

地図データテーブルが同じフォルダにある場合は、ファイル名だけを入力します。パスにスペースが含まれている場合でも引用符は不要です。

4. 「シェープ定義の列」の横に、選択している列に対応する値を含む、地図データテーブル内の列の名前を入力します。

5. [OK]をクリックします。

6. データテーブルを保存します。

グラフビルダーでグラフを作成する際に、「地図の役割」プロパティを追加した列を「シェープ」ゾーンに割り当てると、指定した境界線の地図がグラフに表示されます。

上位カテゴリ

等級分けしたデータセットの場合(5段階評価など)、等級のサブセットの割合を知りたい場合があります。そのような場合、応答に「上位カテゴリ」列プロパティを追加して、特定のカテゴリを1つのカテゴリグループにまとめることができます。

上位カテゴリは、「カテゴリカル」プラットフォームでのみサポートされています。

データに「上位カテゴリ」プロパティを追加するには

1. グループ化したいカテゴリを含む列を右クリックします。

2. [列プロパティ]>[上位カテゴリ]を選択します。

列プロパティウィンドウに、「上位カテゴリ」のオプションが表示されます(図5.5)。

3. 「列のカテゴリ」リストから、グループ化したいカテゴリを選択します。

4. 「上位カテゴリ名」の下にわかりやすい名前を入力します。

何も入力しない場合、選択したカテゴリの後に「など」が付けられます。

5. [追加]をクリックすると、上位カテゴリが作成されます。

6. 「上位カテゴリ」の赤い三角ボタンをクリックし、次のオプションの中から選びます。

[オプション]>[非表示]

選択した上位カテゴリのデータをレポートおよびグラフで非表示にします。

[すべて追加]

列のすべてのカテゴリから上位カテゴリを作成します。

[平均を追加]と[標準偏差を追加]

値スコアの統計量を計算します。『消費者調査』を参照してください。

7. [OK]をクリックして、上位カテゴリをプロパティに追加します。

図5.5 上位カテゴリの設定例 

Image shown here

多重応答

多重応答とは、列のセルの中に複数の応答値が含まれている状態を指します。たとえば、「Consumer Preferences.jmp」サンプルデータテーブルの「歯磨き カンマ区切り」列内の多くのセルには複数の値が含まれています。行6を見てください。そこには“Wake, After Meal, Before Sleep”というデータが含まれています。

カンマ以外の区切り文字を指定したい場合は、「多重応答」列プロパティを追加します。それ以外の場合は、列情報ウィンドウで列の尺度を多重応答に変更します。多重応答尺度の詳細については、尺度についてを参照してください。

JMP 12またはそれ以前のバージョンで保存されたデータテーブルの、多重応答プロパティがある列には、多重応答の尺度が自動的に割り当てられます。列には「多重応答」列プロパティが設定されていて、また、自動的に各値を認識するためには区切り文字がカンマでなければなりません。「多重応答」列プロパティは、ユーザが意図的に削除しない限り、JMPによって自動的に削除されることはありません。

図5.6 「多重応答」の設定ウィンドウ 

Image shown here

注: 「多重応答」プロパティは「カテゴリカル」プラットフォームで使用できます。『消費者調査』の多重応答を参照してください。このプロパティは、データフィルタでも使用できます。詳細については、データフィルタを参照してください。区切り文字がカンマの場合は、代わりに多重応答尺度の使用を検討してください。

利益行列

予測モデルの名義尺度または順序尺度の応答変数に重みを割り当てるには、「利益行列」列プロパティを使用します。名義尺度の応答の場合は、確率の閾値を使用して利益行列の各要素を指定できます。

注: 「利益行列」列プロパティは、「モデルの比較」、「パーティション」、「PLS」、「モデルのあてはめ」の各プラットフォームで使用されます。「モデルのあてはめ」プラットフォームの手法のうち、「利益行列」列プロパティを使用するのは、「一般化回帰」、「名義ロジスティック」、「順序ロジスティック」です。

利益行列

[列プロパティ]>[利益行列]を選択すると、選択した列の各値を行および列とした行列テンプレートが表示されます。実測水準は行として表示され、予測された水準は列として表示されます。対角線上のセルは予測が正しいときのものであり、予測された水準と実測水準が一致しています。

対角線上のセルには、予測が正しいときの利益または重みの値を入力します。

対角線上にないセルには、予測が間違っているときの利益(つまり損失)または重みの値を入力します。

予測が行われない場合は、「その他」列を使用して関連する利益または損失を指定します。

利益行列における確率の閾値の指定

応答が2水準の場合は、利益行列テンプレートの下に追加のオプションが表示されます。これらのオプションを使用すると、利益行列に直接重みを入力するのではなく、確率の閾値を入力できます。

「イベントを示す水準」と「確率の閾値」を指定します。その後、[設定]をクリックして利益行列を更新します。

イベントを示す水準

確率をモデル化するときに、興味があるほうの水準を指定します。

確率の閾値

「イベントを示す水準」が生じる確率に対する閾値を指定します。オブザベーションがイベントを示す水準となる確率が確率の閾値を超える場合、そのオブザベーションはその水準に分類されます。

設定

「イベントを示す水準」と「確率の閾値」での指定を反映する値が利益行列テンプレートに入力されます。確率の閾値の計算を参照してください。

確率の閾値の計算

ここでは、閾値の確率をtで表します。[設定]をクリックすると、利益行列の各セルは次のように割り当てられます。

対角線上のセルには0が割り当てられ、正しい予測からの損失がないことが反映されます。

実測値がイベントを示す水準以外のときの、イベントを示す水準の予測には-1が割り当てられます。

実測値がイベントを示す水準のときの、イベントを示す水準以外の予測には-t/(1 - t)が割り当てられます。

これは、2つの水準に分類するための利益が次のように与えられることを意味します。

Equation shown here

Equation shown here

「利益が最大となる予測値」は、利益がこれらの2つの値の大きい方となる水準です。上記の2つの利益の式から、Prob[イベントを示す水準]が少なくともtに設定されているときには、オブザベーションがイベントを示す水準に割り当てられるという結果が導き出されます。

利益行列と予測モデル

「利益行列」列プロパティを持つ名義尺度または順序尺度の列の場合は、ほとんどのモデル化プラットフォームで、利益行列の各要素を反映する計算式列を保存できます。モデルをあてはめてから、[予測式の保存]または[確率の計算式の保存]オプションを選択します。JMPでは、通常の予測式をデータテーブルに保存できるほか、通常の計算式列における以下のアナログも保存できます。

<水準>の利益: 応答の各水準について、各オブザベーションをその水準に分類するための期待利益が与えられます。

<列名>の予測値: 各オブザベーションについて、予期された利益が最も高い応答の水準が与えられます。

<列名>の期待利益: 各オブザベーションについて、(利益が最大となる)予測値によって定義されている分類の期待利益が与えられます。

<列名>の実測利益: 各オブザベーションについて、そのオブザベーションを(利益が最大となる)予測値の列で指定されている水準に分類するための実測水準が与えられます。

3水準以上の利益行列の例を参照してください。モデル化で利益行列を使用する例については、『予測モデルおよび発展的なモデル』の「決定行列」レポートを参照してください。

3水準以上の利益行列の例

下の例は、「Travel Costs.jmp」サンプルデータテーブルにある「航空会社」列の利益行列を示しています。

図5.7 「利益行列」ウィンドウの例 

Image shown here

この利益行列の値がどのように割り当てられたのかを理解するために、4つの航空会社Carrier 1~Carrier 4を使用して顧客に対応している旅行代理店について考えてみましょう。旅行代理店は、販売した各航空券について、顧客が選んだ航空会社に応じた利益を得ます。旅行代理店は、航空会社を顧客に勧めた、つまり予測した段階で、航空券を予約し、予約金を支払います。顧客が予測された航空会社の使用を決めた場合、予約金を差し引いた所定の金額が旅行代理店の利益となります。しかし、顧客が別の航空会社を選んだ場合は、支払い済みの予約金が無駄になるうえ、別の予約金を払わなければならなくなります。旅行代理店の利益は、間違った予測のため少なくなります。

航空会社Carrier 1~Carrier 4の予約金をそれぞれ$15、$20、$30、$50、そして航空券の販売金額をそれぞれ$40、$40、$100、$110としましょう。

旅行代理店が顧客にCarrier 1を勧め、顧客がその航空券を購入した場合、旅行代理店は予約金$15を支払い、$40を得るため、純利益は$25となります。顧客がCarrier 4を選ぶと旅行代理店が予測し、顧客が実際にはCarrier 1を選んだ場合、旅行代理店はCarrier 4の予約金である$50を失うだけでなく、Carrier 1の予約金である$15を支払わなければならなくなります。つまり、旅行代理店は$40 - $50 - $15 = -$25の純損失を被ることになります。

確率の閾値を使用して利益行列を定義する例

「Liver Cancer.jmp」サンプルデータテーブルには、136人の患者に対する病気の「重症」度の評価データが含まれています。「BMI」から「黄疸」までの列で与えられている予測値を使用して「重症」をモデル化してみましょう。モデルの通常の予測式では、患者が最も確率の高い「重症」水準に割り当てられます。しかし、重症度が実際にはHighである患者をLowに分類してしまうことは、重症度が実際にはLowである患者をHighに分類してしまうよりも重大な間違いです。そこで、重要度が実際にはHighである患者を間違ってLowに分類することに対し、より高いコストを設定することにします。

確率の閾値を設定することによりこのコストが割り当てられます。あなたは、専門家の意見を基にして、水準値がHighとなる確率の予測値が0.4を超える患者を「重症」のHighの水準に分類することにしました。

1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Liver Cancer.jmp」を開きます。

2. 「重症」列を選択し、[列]>[列情報]を選択します。

3. 「利益行列」列プロパティを選択します。

4. 「イベントを示す水準」を[High]に変更します。

5. 「確率の閾値」に0.4と入力します。

6. [設定]をクリックします。

対応する重みを反映するように利益行列が更新されます。

図5.8 確率の閾値に対応する重みを示した利益行列 

Image shown here

この利益行列は、重症度がHighの患者を間違ってLowに分類したときの損失が-1、重症度がLowの患者を間違ってHighに分類したときの損失が、より小さい-0.6667であることを示しています。

欠測値をカテゴリとして扱う

「欠測値をカテゴリとして扱う」列プロパティは、モデルをあてはめるプラットフォームのほとんどで、欠測値を含む列にコード変換システムを適用します。連続量の列に対するコード変換システムは、2つの列で構成されます。1つ目の列は、元の値を使った列で、欠測値が非欠測値の平均で置き換えられます。2つ目の列は、指示変数の列で、どの行が欠測しているかを示します。カテゴリカルな列の場合、欠測値は、列の一水準として扱われます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).