「あてはまりの悪さ(LOF)」レポートには、モデルがデータにうまくあてはまっているかどうかを評価する検定の結果が表示されます。このレポートは、LOF検定(Lack Of Fit検定; あてはまりの悪さの検定)が実行できる場合にのみ表示されます。あてはめたモデルに依存しないで、誤差分散を推定できる場合には、LOF検定を実行できます。このような誤差分散の推定値を算出するには、同一条件で実験が反復されていなければいけません。LOF検定では、反復されている実験のデータから、純粋誤差(pure error)を算出します。
以下の状況ではLOF検定は実行できません。よって、以下の状況では「あてはまりの悪さ(LOF)」レポートは表示されません。
• X変数に関して反復がなく、純粋誤差の平方和を計算できない場合。
• 飽和モデルである場合。つまり、標本サイズと同じ数だけパラメータがある場合。この状況では、モデルがデータに完全にあてはまるので、あてはまりの悪さを評価できません。
モデルの誤差平方和から、純粋誤差平方和を引いたものを、あてはまりの悪さの平方和(LOF平方和)といいます。LOF平方和は、モデルが適切でないと、純粋誤差の平方和よりもかなり大きくなってしまうことがあります。たとえば、説明変数の関数が間違っていたり、交互作用効果が指定されていなかったりした場合です。
「あてはまりの悪さ(LOF)」レポートには、次のような列があります。
要因
変動の3つの要因(「あてはまりの悪さ(LOF)」、「純粋誤差」、「合計誤差」)。
自由度
各要因の自由度(DF; Degrees of Freedom)。
– 「合計誤差」の自由度は、「分散分析」表の「誤差」の行に表示されている値です。平方和分解の定理に基づき、「合計誤差」の自由度は、「あてはまりの悪さ(LOF)」と、「純粋誤差」の2つに分解することができます。
– 「純粋誤差」の自由度は、反復されている観測値の各グループにおける自由度を足し合わせた値です。すべての説明変数の値がまったく同じグループ(反復されている観測値のグループ)がg個があった場合、純粋誤差の自由度(DFPE)は、次式によって表されます。
ここで、niは、i番目のグループにおける繰り返し数(すべての説明変数の値がまったく同じであるデータの行数)です。
– 「あてはまりの悪さ(LOF)」の自由度は、「合計誤差」の自由度から、「純粋誤差」の自由度を引いた値です。
平方和
各要因の平方和(SS)。
– 「合計誤差」の平方和は、「分散分析」表の「誤差」の行にある平方和です。
– 「純粋誤差」の平方和は、反復されている観測値の各グループにおける平方和を足し合わせものです。この平方和を自由度で割った値は、モデルに依存しない、誤差分散の推定値になります。すべての説明変数の値がまったく同じグループ(反復されている観測値のグループ)がg個があった場合、純粋誤差の自由度(SSPE)は、次式によって表されます。
ここで、SSiは、i番目のグループにおける平方和で、実測値とそのグループの平均との差を2乗して計算されます。
– 「あてはまりの悪さ(LOF)」の平方和は、「合計誤差」の平方和から、「純粋誤差」の平方和を引いた値です。
平均平方
要因の平均平方。平方和を自由度で割った値。「純粋誤差」の平均平方を基準にして、「あてはまりの悪さ(LOF)」の平均平方が相対的に大きくなっている場合、モデルがうまくあてはまっていないことを示します。検定統計量のF値を求めるために、これらの値が使われます。
F値
「あてはまりの悪さ(LOF)」の平均平方を、「純粋誤差」の平均平方で割った比。F値は、「あてはまりが悪いことによる変動は、純粋誤差による変動と等しい」、言い換えると「あてはまりが悪くない」という帰無仮説を検定します。
p値(Prob > F)
あてはまりの悪さ(LOF)に対する検定のp値。p値が小さいときは、現在のモデルがデータにあてはまっていないことを意味します。
最大R2乗
モデルで使われている説明変数を組み合わせることによって得られる最大のR2乗。この値は、「純粋誤差」の平方和から計算されます。「純粋誤差」の平方和はモデル式に関係なく不変です。次式により、説明変数を組み合わせることによって得られる最大のR2乗は計算されます。
上式によって計算された値が、「最大R2乗」に表示されます。