図10.7は、連続尺度の応答変数に対する「モデルの比較」レポートの例です。
図10.7 「モデルの比較」レポート
「予測子」レポートには、すべての応答変数の列、および、すべてのモデルが表示されます。また、ここには、予測式や予測値の列を作成したプラットフォームの名前も表示されます。
「適合度指標」レポートには、各モデルの適合度統計量が表示されます。なお、表示される適合度統計量の種類は、応答変数が連続尺度かカテゴリカルかによって異なります。
R2乗
決定係数(寄与率)。データに欠測値がない場合は、「モデルの比較」レポートにおけるこの値は、元のモデルのR2乗と一致します。欠測値がある場合は、異なった値になります。
RASE
誤差の平均平方根(Root of Average Squared Error)。
– 以下の式において、予測誤差(応答の実測値と予測値の差)の平方和をSSEとします。
– また、オブザベーションの数をnとします。
– RASEは次のように定義されます。
RASE =
AAE
平均絶対誤差(Average Absolute Error)。
度数
データの度数を含む列。
エントロピーR2乗
あてはめたモデルの対数尤度と、切片だけのモデルの対数尤度を比較している指標です。あてはめたモデルの対数尤度を、切片だけのモデルの対数尤度で割り、その値を1から引いたものです。この指標の範囲は0~1です。
一般化R2乗
この指標は、一般的な回帰モデルに適用できるものです。一般化R2乗は、尤度Lから算出され、最大が1となるように尺度化されています。完全にモデルがデータにあてはまっている場合は1、切片だけのモデルと同等なあてはまりの場合には0になります。一般化R2乗は、通常のR2乗(正規分布に従う連続尺度の応答変数に対する標準最小2乗法のR2乗)を一般化したものです。この一般化R2乗は、「NagelkerkeのR2」、または「Craig and UhlerのR2」とも呼ばれており、Cox and Snellの疑似R2を最大が1になるように尺度化したものです。詳細については、Nagelkerke(1991)を参照してください。
平均 -Log p
-log(p)の平均です。pは、実際に生じた応答水準に対する予測確率です。
RMSE
誤差の標準偏差(Root Mean Square Error; 誤差平方和を自由度で割ったものの平方根)。応答変数がカテゴリカルの場合は、誤差は(1-p)で計算されます。ここで、pは、実際に生じた応答水準に対する予測確率です。
平均 絶対偏差
誤差の絶対値の平均。応答変数がカテゴリカルの場合は、誤差は(1-p)で計算されます。ここで、pは、実際に生じた応答水準に対する予測確率です。
誤分類率
予測確率が最も大きい応答の水準が、観測された水準と一致しない割合。
N
標本サイズ(オブザベーション数)。
学習と検証における適合度指標では、カテゴリカルな応答変数の適合度指標について具体的に説明しています。