基本的な統計分析 > 二変量分析 > 直線や多項式のあてはめ > 「直線のあてはめ」と「多項式のあてはめ」のレポート
公開日: 11/25/2021

「直線のあてはめ」と「多項式のあてはめ」のレポート

「直線のあてはめ」と「多項式のあてはめ」のレポート冒頭には、あてはめられた式が表示されます。

図5.9 あてはめの式の例 

Example of Equations of Fit

ヒント: 式はクリックして編集できます。

「直線のあてはめ」と「多項式のあてはめ 次数=X」の各レポートには、少なくとも3つのレポートが表示されます。Xがまったく同じ値になっているデータ行がある場合は、4つ目の「あてはまりの悪さ(LOF)」レポートも表示されます。

「あてはめの要約」レポート

以下の「二変量」プラットフォームの「あてはめの要約」レポートは、同じデータに直線と2次多項式をあてはめたときの要約です。このレポートを比較すると、直線から2次多項式にすることで、どの程度、モデルのあてはまりが良くなるのかが分かります。「R2乗」が大きくなるほど、「誤差の標準偏差(RMSE)」の値が小さくなるほど、モデルのあてはまりは良くなっています。

図5.10 直線と多項式の「あてはめの要約」レポート 

Summary of Fit Reports for Linear and Polynomial Fits

「あてはめの要約」レポートには、次の情報が表示されます。

R2乗

モデルによって説明できる変動の割合を表します。残りの変動は、モデルで説明できないため、ランダムな誤差とみなされます。モデルが完全にあてはまっていると、R2乗は1になります。

メモ: R2乗の値が小さい場合は、変動を説明する変数が、モデルに含まれていない可能性があります。ただし、扱っているデータ自体の変動が大きい場合は、意味のある回帰モデルであっても、R2乗の値が小さくなることがあります。自分の研究分野の文献を読み、R2乗の大きさが通常、どれぐらいであるかを把握してください。

図5.10「R2乗」の値から、2次多項式は、ほんの少しだけ直線よりもあてはまりが良いことがわかります。「あてはめの要約」レポートを参照してください。

自由度調整R2乗

パラメータ数の異なるモデルでも比較できるように「R2乗」に調整を加えたもので、計算の際に自由度が考慮されます。「あてはめの要約」レポートを参照してください。

誤差の標準偏差(RMSE)

「平均平方誤差の平方根(Root Mean Square Error)」であり、誤差の標準偏差に対する推定値です。「分散分析」レポートにある「誤差」の平均平方の平方根です(図5.12)。

Yの平均

応答変数の標本平均(算術平均)。これは、モデルで効果が指定されていないときのYの予測値です。

オブザベーション

モデルを推定するために使われた観測(オブザベーション)の個数。ただし、重み変数が使われた場合は、重みの合計です。

「あてはまりの悪さ(LOF)」レポート

メモ: 「あてはまりの悪さ(LOF)」レポートは、Xがまったく同じ値になっている行がある場合にのみ表示されます。

Xがまったく同じ値になっているデータ行がある場合には、あてはめられたモデルが正しいかどうかに関係なく、誤差の大きさを推定できます。このような反復(Xが同じ値になっているデータ行)から計算された誤差を純粋誤差(pure error)と言います。純粋誤差は、データの誤差のうち、どのようなモデルを構築しても説明や予測ができない変動を表します。なお、自由度が非常に少ない(反復されているXの行数が少ない)場合は、「あてはまりの悪さ(LOF)」検定はあまり役に立たない可能性があります。

図5.11 直線および多項式のあてはめの「あてはまりの悪さ(LOF)」レポートの例 

Examples of Lack of Fit Reports for Linear and Polynomial Fits

モデルの残差誤差から、純粋誤差を引いたものを、あてはまりの悪さ(LOF; Lack Of Fit)の誤差といいます。指定したモデルが不適切だと、LOF誤差が純粋誤差よりも有意に大きくなります。その場合は、別のモデルをあてはめるようにしてください。「あてはまりの悪さ(LOF)」レポートには、LOF誤差が0かどうかの検定結果も表示されます。

「あてはまりの悪さ(LOF)」レポートには、次の情報が表示されます。

要因

変動の3つの要因(「あてはまりの悪さ(LOF)」「純粋誤差」「合計誤差」)。

自由度

誤差の各要因がもつ自由度(DF)。

「合計誤差」の自由度は、「分散分析」レポートの「誤差」の行に表示されている自由度です(「分散分析」レポートを参照)。この自由度は、データ全体の自由度から、モデルの自由度を引いたものです。「誤差」の自由度は、あてはまりの悪さ(LOF)と純粋誤差の2つの自由度に分けることができます。

「純粋誤差」の自由度は、X値が同じである行をグループにまとめ、それぞれのグループの自由度を足し合わせたものです。「あてはまりの悪さ(LOF)」レポートを参照してください。

「あてはまりの悪さ(LOF)」の自由度は、「合計誤差」「純粋誤差」の自由度の差です。

平方和

誤差の各要因の平方和(SS)。

「合計誤差」の平方和は、「分散分析」レポートの「誤差」の行に表示されている平方和です(「分散分析」レポートを参照)。

「純粋誤差」の平方和は、X値が同じである行をグループにまとめ、それぞれのグループの平方和を足し合わせたものです。この平方和は、モデルのX効果ではまったく説明できない、純粋にランダムな誤差の大きさを推定したものです。「あてはまりの悪さ(LOF)」レポートを参照してください。

「あてはまりの悪さ(LOF)」の平方和は、「合計誤差」「純粋誤差」の平方和の差です。LOFの平方和が大きいときは、モデルがデータに良くあてはまっていない可能性があります。この後で説明する「F値」によって、あてはまりの悪さによって生じる変動が十分に小さいかどうか、つまり、あてはまりの悪さによる変動が純粋誤差の変動に対して無視できる大きさであるかが検定されます。

平均平方

平方和を関連する自由度で割った値。この計算により、平方和が平均(平均平方)に換算されます。統計的検定で使用するF値は、平均平方の比です。

F値

「あてはまりの悪さ(LOF)」の平均平方の、「純粋誤差」の平均平方に対する比。「母集団においてLOF誤差は0である」という帰無仮説を検定します。

p値(Prob > F)

母集団においてLOFに起因する変動が存在しないという仮定のもとで、現在のF値よりも大きなF値を得る確率。p値が大きい場合は、あてはまりの悪さの誤差は有意ではありません。

最大R2乗

モデルに含まれている変数で達成できる最大のR2「あてはまりの悪さ(LOF)」レポートを参照してください。

「分散分析」レポート

回帰モデルに対する分散分析表では、標本全体の変動が、いくつかの成分に分割されます。これらの成分は、モデルの有効性を評価する「F値」の計算に使用されます。「F値」に関連する確率(p値)が小さいとき、「そのモデルは、Yの平均だけのモデルよりも、良くあてはまっている」と見なすことができます。

図5.12は、線形式のあてはめ([直線のあてはめ])と2次式のあてはめ([多項式のあてはめ])の「分散分析」レポートです。どちらも平均だけのモデルよりも統計的にあてはまりが良いことがわかります。

図5.12 直線および多項式のあてはめの「分散分析」レポートの例 

Examples of Analysis of Variance Reports for Linear and Polynomial Fits

「分散分析」レポートには、次の情報が表示されます。

要因

変動の3つの要因(「モデル」「誤差」「全体(修正済み)」)。

自由度

変動の各要因の自由度(DF)。

自由度は、非欠測値の標本サイズ(N)から、使用したパラメータ数を引いて求めます。標本全体の変動においては、全体平均を表す1つのパラメータだけが使用されるので、標本サイズから自由度が1つ引かれます。例では、全体の自由度は50となっています。「全体(修正済み)」の自由度は、「モデル」項と「誤差」項に分かれます。

「直線のあてはめ」では、切片のパラメータに、傾きのパラメータを1つ追加したモデルが推定されます。そのため、分散分析表における「モデル」の自由度は、1となります。また、2次の「多項式のあてはめ」では、切片のパラメータに、2つのパラメータ(β1β2)を追加したモデルが推定されます。そのため、分散分析表における「モデル」の自由度は2となります。

「誤差」の自由度は、「全体(修正済み)」「モデル」の自由度の差です。

平方和

変動をもたらす各要因の平方和(SS)。

図5.12の例では、各応答から標本平均までの距離の平方和(「全体(修正済み)」)は57,278.157です。これは、基本モデル(単純な平均モデル)の平方和で、その他のモデルとの比較に使用されます。

線形回帰においては、各点から直線までの距離の平方和は12,012.733に減少します。これが、線形モデルでは説明できない「誤差」(残差)の平方和です。2次多項式をあてはめると、残差の平方和は6,906.997になり、直線のときよりわずかに多く変動が説明されていることになります。言い換えると、2次多項式の方が、直線よりもモデル平方和が大きくなっており、より多くの変動を説明しています。「全体(修正済み)」の平方和から「誤差」の平方和を引くと、モデルで説明される平方和が求められます。

平均平方

平方和を関連する自由度で割った値。統計的検定で使用される「F値」は、次に示す2つの平均平方の比です。

「直線のあてはめ」の「モデル」平均平方は45,265.4です。この値は、「(切片を除く)すべての回帰パラメータが0である」という仮説のもとでは誤差分散の推定値になります。

「誤差」平均平方である245.2は、誤差分散の推定値です。

F値

モデルの平均平方を誤差の平均平方(MSE)で割ったもの。これは、「(切片を除く)すべての回帰パラメータが0である」という帰無仮説を検定します。この仮説が真のとき、「誤差」と「モデル」の平均平方は両方とも誤差分散の推定値となり、その比はF分布に従います。

p値(Prob > F)

真のモデルが平均だけのモデルであった場合に、現在より大きなF値が得られる確率(p値)を表します。有意確率が0.05以下だと、効果がある証拠だと考えられています。

「パラメータ推定値」レポート

「直線のあてはめ」の「パラメータ推定値」レポートには、項として切片とX変数が1つ表示されています。

k次多項式のあてはめでは、切片の推定値と、X変数のk個のべき乗それぞれに1つの推定値があります。

図5.13 直線および多項式のあてはめの「パラメータ推定値」レポートの例 

Examples of Parameter Estimates Reports for Linear and Polynomial Fits

「パラメータ推定値」レポートには、次の情報が表示されます。

モデルの各パラメータの名前。定数項である切片は、どのモデルにも含まれます。

推定値

線形モデルのパラメータ推定値。回帰モデルの予測式は、これらの推定値を係数とした、説明変数の線形結合で表されます。

標準誤差

パラメータ推定値の標準誤差を推定した値。この標準誤差を使って、検定と信頼区間が計算されます。

t値

「各パラメータが0である」という帰無仮説を検定する統計量。t値は、パラメータ推定値とその標準誤差の比です。帰無仮説が真のとき、t値はStudentのt分布に従います。

p値(Prob>|t|)

それぞれのt値から計算した有意確率。これは、帰無仮説が真であるという仮定のもとで、計算されたt値より(絶対値が)大きいt値が得られる確率を示します。値が0.05(場合によっては0.01)より小さいときは、「パラメータがゼロとは有意に異なる証拠が得られた」と解釈されます。

追加の統計量を表示するには、レポートを右クリックし、[列]の各オプションを選択します。次の統計量はデフォルトでは表示されません。

下側95%

パラメータ推定値の下側95%信頼限界。

上側95%

パラメータ推定値の上側95%信頼限界。

標準β

標準化されたパラメータ推定値(標準化回帰係数)。異なるスケールで測定されているX変数の効果を比較する場合に便利です。「パラメータ推定値」レポートを参照してください。

VIF

分散拡大係数(Variance Inflation Factor)。X変数の相関行列の逆行列における対角要素。

計画の標準誤差

計画行列に基づく、パラメータ推定値の標準誤差。「パラメータ推定値」レポートを参照してください。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).