次図は、「Diabetes.jmp」サンプルデータテーブルの連続尺度の応答「Y」に対するプロットです。
図4.9 連続尺度の応答の「パーティション」レポート
「パーティション」のプロットは、初期状態は分岐が何も行われていない状態のものです。各点はそれぞれデータの各行を表しています。なお、検証セットを用いた場合、プロットには学習セットの行だけが描かれます。
次の点に注意してください。
• 縦軸は、オブザベーションの応答値を表しています。
• 横線は、各ノードにおける応答の平均値を表しています。初期状態では、横線は、応答の全体平均を表しています。
• 縦線で分割されている領域は、ディシジョンツリーの分岐を表しています。これらの縦線によって分けられた領域は、ツリーの各ノードに対応しています。X軸のテキストにおいて、最も新しい分岐は最上に(つまり、X軸のすぐ下に)表示されます。プロットは、分岐や剪定のたびに更新されます。
ヒント: 狭い領域において、分岐の情報を見るには、横軸のラベルの上にカーソルを置いてください。ツールヒントが表示されます。
図4.10 連続尺度の応答変数に対する要約レポート
要約レポートには、学習セットの適合度統計量が表示されます(検証セットやテストセットを使用した場合には、それらから計算された適合度統計量も表示されます)。要約レポートの適合度統計量は、分岐や剪定のたびに更新されます。
R2乗
現在のR2の値。
RMSE
誤差の標準偏差。平均2乗誤差の平方根(Root Mean Square Error)。
N
オブザベーション数(標本サイズ)。
分岐数
ディシジョンツリーにおける現在の分岐数。
AICc
修正済みの赤池の情報量規準。詳細については、『基本的な回帰モデル』の尤度・AICc・BICを参照してください。
ツリー内の各ノードには、それらのノードに関する情報と、赤い三角ボタン(これをクリックすると、追加のオプションを選べます)があります。また、終端ノードには、「候補」レポートも表示されます。
図4.11 連続尺度の応答変数に対する終端ノードレポート
度数
そのノードに属する学習セットのオブザベーション数。
平均
そのノードに属する学習セットの、応答の平均値。
標準偏差
そのノードに属する学習セットの、応答の標準偏差。
候補
各列の「候補」レポートに、その列の最適な分岐に関する詳細が示されます。すべての列の分岐のなかで最適なものにアスタリスク(*)が付いています。
項
候補列を表示します。
候補SS
最適な分岐点の平方和。
対数価値
-log10(p値)で定義される、対数価値(LogWorth)。対数価値が最大になっている分岐点が、最適な分岐点とみなされます。「パーティション」プラットフォームの統計的詳細を参照してください。
分岐点
分岐に使われた説明変数の閾値。カテゴリカルな説明変数については、左側に分岐されるカテゴリが表示されます。
最適な分岐点にはアスタリスク(*)がついています。しかし、「候補SS」が大きい変数と「対数価値」が大きい変数が同じでない場合もあります。検定統計量が最大になっている分岐には「<」、対数価値が最大になっている分岐には「>」を表示することによって、最大値を持つ変数を別々に示しています。アスタリスクがついている場合は、検定統計量が最大になっている変数と、対数価値が最大になっている変数が一致しているケースです。「パーティション」プラットフォームの統計的詳細を参照してください。