次図は、「Diabetes.jmp」サンプルデータテーブルのカテゴリカルな応答[Y 2値]に対するプロットです。
図4.6 カテゴリカルな応答の「パーティション」レポート
「パーティション」のプロットにおいて、各点はそれぞれデータの各行を表しています。なお、検証セットを用いた場合、学習セットだけがプロットされます。初期状態のプロットでは、分岐は行われていません。
次の点に注意してください。
• 左側の縦軸は、各応答の割合を示しています。
• 右側の縦軸は、応答値を示しています。
• プロット中の横線は、分割ごとの応答水準の割合を示しています。初期状態での横線は、分岐が1回も行われていないので、データ全体における応答水準の割合を示しています。
• どのような分岐が行われたかは、X軸の下に、テキストによる説明によって示されます。また、プロット内においては、各データ点が縦線により分けられます。これらの縦線によって分けられた領域は、ツリーの各ノードに対応しています。X軸のテキストにおいて、最も新しい分岐は最上に(つまり、X軸のすぐ下に)表示されます。プロットは、分岐や剪定のたびに更新されます。
図4.7 カテゴリカルな応答変数に対する要約レポート
要約レポートには、学習セットの適合度統計量が表示されます(検証セットやテストセットを使用した場合には、それらから計算された適合度統計量も表示されます)。要約レポートの適合度統計量は、分岐や剪定のたびに更新されます。
R2乗
現在のR2の値。
N
オブザベーション数(標本サイズ)。
分岐数
ディシジョンツリーにおける現在の分岐数。
ツリー内の各ノードには、それらのノードに関する情報と、赤い三角ボタン(これをクリックすると、追加のオプションを選べます)があります。また、終端ノードには、「候補」レポートも表示されます。
図4.8 カテゴリカルな応答変数に対する終端ノードレポート
度数
そのノードに属する学習セットのオブザベーション数。
G2
カテゴリカルな応答に使用される適合度統計量(連続尺度の応答に対する誤差平方和に相当する統計量)。値が小さくなるほど、適合度が良いことを示します。「パーティション」プラットフォームの統計的詳細を参照してください。
候補
各列の「候補」レポートに、その列の最適な分岐に関する詳細が示されます。すべての列の分岐のなかで最適なものにアスタリスク(*)が付いています。
項
候補列を表示します。
候補G^2
最適な分岐点の尤度比カイ2乗。この尤度比カイ2乗値が最大である説明変数で分岐すると、モデルの対数尤度が、その分岐によって最も大きく増加します。
対数価値
-log10(p値)で定義される、対数価値(LogWorth)。対数価値が最大になっている分岐点が、最適な分岐点とみなされます。「パーティション」プラットフォームの統計的詳細を参照してください。
分岐点
分岐に使われた説明変数の閾値。カテゴリカルな説明変数については、左側に分岐されるカテゴリが表示されます。
最適な分岐点にはアスタリスク(*)がついています。しかし、「候補G2」が大きい変数と「対数価値」が大きい変数が同じでない場合もあります。検定統計量が最大になっている分岐には「<」、対数価値が最大になっている分岐には「>」を表示することによって、最大値を持つ変数を別々に示しています。アスタリスクがついている場合は、検定統計量が最大になっている変数と、対数価値が最大になっている変数が一致しているケースです。「パーティション」プラットフォームの統計的詳細を参照してください。