1つの予測変数による回帰分析では、予測変数1つと応答変数1つから成る単回帰モデルを紹介しました。重回帰では、複数の予測変数を用いて応答変数の平均を予測します。
この例では、キャンディバーの栄養価情報を記録した「Candy Bars.jmp」データテーブルを使用します。
栄養士は、次の情報からカロリーを予測したいと考えています。
• 総脂肪
• 炭水化物
• タンパク質
重回帰を用いて、これら3つの予測変数から応答変数の平均を予測します。
総脂肪、炭水化物、タンパク質に対するカロリーの関係を視覚化するには、散布図行列を作成します。
1. [ヘルプ]>[サンプルデータライブラリ]を選択し、「Candy Bars.jmp」を開きます。
2. [グラフ]>[散布図行列]を選択します。
3. 「カロリー」を選択し、[Y, 列]をクリックします。
4. 「総脂肪(g)」、「炭水化物(g)」、および「タンパク質(g)」を選択し、[X]をクリックします。
5. [OK]をクリックします。
図5.26 散布図行列の結果
この散布図行列から、3変数とカロリーとの間に正の相関があることが分かります。相関が一番大きいのは、カロリーと総脂肪です。相関があることが分かったので、次に、平均カロリーを予測する重回帰モデルを構築します。
引き続き、キャンディバーのサンプルデータ「Candy Bars.jmp」を使用します。
1. [分析]>[モデルのあてはめ]を選択します。
2. 「カロリー」を選択し、[Y]をクリックします。
3. 「総脂肪(g)」、「炭水化物(g)」、および「タンパク質(g)」を選択し、[追加]をクリックします。
4. 「強調点」メニューから[要因のスクリーニング]を選択します。
図5.27 「モデルのあてはめ」ウィンドウ
5. [実行]をクリックします。
レポートウィンドウにモデルの結果が表示されます。結果を解釈する上では、次の情報に注目してください。
メモ: モデルの結果についての詳細は、『基本的な回帰モデル』のモデルの指定章を参照してください。
「予測値と実測値のプロット」には、カロリーの予測値と実測値が表示されます。予測値が実測値に近いほど、散布図上の点が赤い線の近くに分布します(図5.28)。すべての点が赤い線の非常に近くに分布しているため、モデルはカロリーを良く予測していることがわかります。
図5.28 予測値と実測値のプロット
モデルの予測力を示す別の指標として、R2乗値(図5.28の図の下部に表示されています)があります。R2乗値は、カロリーの変動のうち、モデルによって説明できる割合を表します。この値が1に近いほど、モデルの予測力は高くなります。この例では、R2乗値は0.99です。
「パラメータ推定値」レポートには、次の情報が表示されます。
• モデル係数
• 各パラメータのp値
図5.29 「パラメータ推定値」レポート
この例では、p値はすべて非常に小さな値になっています(<0.0001)。つまり、3つの効果(総脂肪、炭水化物、タンパク質)すべてがカロリーの予測に有意に寄与しているということです。
モデル係数を使用して、特定量の総脂肪、炭水化物、タンパク質に対するカロリー値を予測できます。たとえば、次の特性を持つキャンディバーの平均カロリーを予測してみましょう。
• 総脂肪 = 11 g
• 炭水化物 = 43 g
• タンパク質 = 2 g
これらの値に対する平均カロリーの予測値は、次式で求められます。
277.92 = -5.9643 + 8.99*11 + 4.0975*43 + 4.4013*2
この例で用いた特性は、Milky Wayキャンディバー(データテーブルの59行目)と同じです。Milky Wayのカロリーの実測値は280であり、モデルは良く予測していることを示しています。
「予測プロファイル」では、要因の変化が予測値に与える影響を確認できます。プロファイルに示されている直線は、各要因の変化に伴うカロリーの変化の程度を示しています。「総脂肪(g)」の直線が一番急勾配になっています。つまり、総脂肪の変化がカロリーに一番影響を与えます。
図5.30 予測プロファイル
各要因の縦の線をクリックしてドラッグし、予測値の変化を確認できます。要因の現在値をクリックして変更することもできます。各要因の現在値をクリックして、たとえば、Milky Wayキャンディバー(59行目)の値を入力すると、その予測値を知ることができます。
図5.31 Milky Wayの要因値
メモ: 予測プロファイルの詳細については、『プロファイル機能』のプロファイル章を参照してください。
栄養士は、総脂肪、炭水化物、タンパク質に基づいてキャンディバーのカロリーを予測する優れたモデルを手に入れました。