Dans le paragraphe Utiliser la régression avec un régresseur, vous avez appris à créer des modèles de régression simples, composés d’une variable de régression et d’une variable de réponse. La régression multiple permet de prévoir la variable de réponse moyenne à l’aide de deux variables de régression ou plus.
Cet exemple s'appuie sur la table de données Candy Bars.jmp, qui contient les informations nutritionnelles de barres chocolatées.
Un diététicien souhaite prévoir le nombre de calories à l’aide des informations suivantes :
• Total fat (lipides totaux)
• Glucides
• Protéines
Utilisez la régression multiple pour prévoir la variable de réponse moyenne à l’aide de ces trois variables de régression.
Pour visualiser la relation entre les calories d'une part et les lipides totaux, les glucides et les protéines d'autre part, créez une matrice de nuages de points :
1. Choisissez Aide > Bibliothèque d'échantillons de données et ouvrez le fichier Candy Bars.jmp.
2. Choisissez Graphique > Matrice de graphiques de nuages de points.
3. Sélectionnez Calories et cliquez sur Y, Colonnes.
4. Sélectionnez Total fat g, Carbohydrate g et Protein g, puis cliquez sur X.
5. Cliquez sur OK.
Figure 5.26 Résultats de la matrice de nuages de points
La matrice indique qu’il existe une corrélation positive entre les calories et les trois variables, la plus marquée étant celle entre les calories et les lipides totaux. Fort de ces informations, le diététicien peut créer un modèle de régression multiple afin de prévoir le nombre moyen de calories.
La procédure ci-après est également basée sur la table de données Candy Bars.jmp.
1. Choisissez Analyse > Modèle linéaire.
2. Sélectionnez Calories et cliquez sur Y.
3. Sélectionnez Total Fat g, Carbohydrate g, et Protein g, puis cliquez sur Ajouter.
4. Dans le menu Choix du rapport, sélectionnez Criblage de l’effet.
Figure 5.27 Fenêtre Modèle linéaire
5. Cliquez sur Exécuter.
La fenêtre de rapport affiche les résultats du modèle. Pour interpréter les résultats du modèle, focalisez-vous sur ces trois aspects :
• Afficher le graphique des valeurs observées en fonction des valeurs prévues
• Interpréter les estimations de paramètres
• Utiliser le profileur de prévision
Remarque : Pour plus d'informations sur tous les résultats du modèle, voir Fitting Linear Models.
Le graphique des valeurs observées en fonction des valeurs prévues affiche les calories réelles par rapport aux calories prévues. Comme les valeurs prévues sont proches des valeurs observées, les points du nuage tombent à proximité de la droite rouge (Figure 5.28). Les points étant tous très proches de la droite, vous pouvez en conclure que le modèle prévoit correctement les calories en fonction des facteurs choisis.
Figure 5.28 Graphique des valeurs observées en fonction des valeurs prévues
Vous pouvez également mesurer la précision du modèle par la valeur R carré (située sous le graphique dans la Figure 5.28). Elle mesure le pourcentage de variabilité des calories, comme expliqué par le modèle. Une valeur proche de 1 signifie que la prévision du modèle est correcte. Dans cet exemple, la valeur de R carré est de 0,99.
Le rapport Estimation des paramètres fournit les informations suivantes :
• Les coefficients du modèle
• La p-value de chaque paramètre
Figure 5.29 Rapport Estimation des paramètres
Dans cet exemple, les p-values sont toutes très petites (>0.0001). Cela indique que les trois effets (lipides, glucides et protéines) contribuent significativement à la prévision des calories.
Vous pouvez utiliser les coefficients du modèle pour prévoir la valeur des calories pour des valeurs de lipides, glucides et protéines données. Supposons que vous souhaitiez prévoir le nombre moyen de calories des barres chocolatées présentant les caractéristiques suivantes :
• Lipides = 11 g
• Glucides = 43 g
• Protéines = 2 g
À l’aide de ces valeurs, vous pouvez calculer le nombre moyen de calories prévu :
277,92 = -5,9643 + 8,99*11 + 4,0975*43 + 4,4013*2
Les caractéristiques de cet exemple sont les mêmes que celles de la barre Milky Way (ligne 59 de la table de données). Les calories réelles de la barre Milky Way s'élèvent à 280, ce qui confirme les prévisions du modèle.
Utilisez le profileur de prévision pour étudier l'impact des modifications apportées aux facteurs sur les valeurs prévues. Les droites du profil montrent la puissance de l'impact des modifications de facteur sur les calories. La droite de Total fat g est la plus inclinée, ce qui signifie que ce sont les modifications apportées aux lipides totaux qui ont le plus d'impact sur les calories.
Figure 5.30 Profileur de prévision
Faites glisser la droite verticale de chaque facteur pour comprendre la manière dont les valeurs prévues changent. Vous pouvez également cliquer sur les valeurs des facteurs et les modifier. Par exemple, cliquez sur les valeurs des facteurs et remplacez-les par les valeurs de la barre Milky Way (ligne 59).
Figure 5.31 Valeurs des facteurs correspondant à la barre Milky Way
Remarque : Pour plus d'informations sur le profileur de prévision, voir Profilers.
Le diététicien possède désormais un bon modèle pour prévoir les calories d’une barre chocolatée en fonction des lipides totaux, des glucides et des protéines.