En el ejemplo de los cereales, ha identificado qué cereales comer y cuáles evitar como parte de una dieta saludable. Ahora quiere ver cómo están relacionadas las variables de los cereales entre sí. La plataforma Multivariante le permite observar los patrones y relaciones que existen entre las variables. Desde el informe Multivariante, puede hacer lo siguiente:
• resumir la fuerza de las relaciones lineales entre cada par de variables de respuesta mediante la tabla Correlations
• identificar dependencias, valores atípicos y conglomerados mediante la matriz de gráficos de dispersión
• utilizar otras técnicas para examinar múltiples variables, como correlaciones parciales, inversas y por pares, matrices de covarianza y componentes principales
Nota: Para obtener más información acerca de la plataforma Multivariante, consulte Multivariate Methods.
Quiere ver las relaciones existentes entre variables como grasa y calorías. Al analizar los datos correspondientes a los cereales en la plataforma Multivariante, se obtienen las respuestas a las siguientes preguntas:
• ¿Qué pares de variables están altamente correlacionadas?
• ¿Qué pares de variables no están correlacionadas?
1. En la tabla de datos Cereal.jmp, haga clic en el triángulo invertido situado en la parte superior del panel Columnas para deseleccionar las filas.
Figura 6.6 Deseleccionar filas
2. Seleccione Análisis > Métodos multivariantes > Multivariante.
3. Seleccione desde Calories hasta Potassium, haga clic en Y, Columnas y, a continuación, haga clic en Aceptar.
Aparecerá el informe Multivariante. El informe contiene el informe Correlaciones y Matriz de gráfico de dispersión de forma predeterminada. El informe Correlaciones es una matriz de coeficientes de correlación que resume la fuerza de las relaciones lineales que existen entre cada par de variables de respuesta (Y). Los números oscuros indican un menor grado de correlación.
Figura 6.7 Informe Correlaciones
Tenga en cuenta lo siguiente:
– En la columna Calories, el número de calorías está altamente correlacionado con todas las variables, excepto con el sodio (sodium) y la fibra (fiber).
– En la columna Fiber, la fibra (fiber) y el potasio (potassium) muestran una alta correlación.
– En la columna Sodium, el sodio (sodium) no está altamente correlacionado con las demás variables.
Las elipsis de densidad que se muestran en la matriz de gráficos de dispersión ilustran con más detalle las relaciones existentes entre variables.
Figura 6.8 Una parte de la matriz de gráficos de dispersión
De forma predeterminada, hay una elipsis de densidad normal bivariante al 95% en cada gráfico de dispersión. Suponiendo que cada par de variables tenga una distribución normal bivariante, esta elipsis engloba aproximadamente el 95 % de los puntos. Si la elipsis tiene una forma bastante redonda y no tiene una orientación diagonal, las variables no están correlacionadas. Si la elipsis es estrecha y está orientada en diagonal, las variables están correlacionadas.
Tenga en cuenta lo siguiente:
– Las elipsis son bastante redondas en la fila Sodium. Esta forma denota que el sodio (sodium) no está correlacionado con otras variables.
– Los marcadores x azules, que representan Nat. Bran Oats & Honey, Cracklin’ Oat Bran y Banana Nut Crunch aparecen fuera de las elipsis en la fila Fat. Esta posición indica que el dato es un valor atípico (debido a la cantidad de grasa que contiene el cereal).
Más adelante exploraremos con más detalle una matriz de gráficos de dispersión.
4. Haga clic en el triángulo rojo junto a Multivariante y seleccione Correlaciones por pares para que se muestre el informe del mismo nombre.
Figura 6.9 Una parte del informe Correlaciones por pares
El informe Correlaciones por pares muestra las correlaciones producto-momento de Pearson para cada par de variables Y. El informe también muestra las probabilidades de significación y compara las correlaciones en un gráfico de barras.
5. Para ver rápidamente qué pares guardan una alta correlación, haga clic con el botón derecho en el informe y seleccione Ordenar por columna, Prob. de significación y la casilla de verificación Ascendente; a continuación, haga clic en Aceptar.
Lo pares que tienen una correlación más alta aparecen al principio del informe. Los valores p de los pares que son bajos indican que hay evidencia de correlación. La correlación más significativa se produce entre Tot Carbo (carbohidratos totales) y Calories.
Figura 6.10 Valores p bajos de los pares
Si observa los resultados, puede responder las siguientes preguntas:
¿Qué pares de variables están altamente correlacionadas?
El informe Correlaciones y la Matriz de gráficos de dispersión muestran que el número de calorías (calories) está altamente correlacionado con todas las variables, excepto con el sodio (sodium) y la fibra (fiber). El informe Correlaciones por pares muestra que Tot Carbo (carbohidratos totales) y Calories son el par de variables más correlacionadas.
¿Qué pares de variables no están correlacionadas?
El informe Correlaciones y la Matriz de gráficos de dispersión muestran que Sodium no está correlacionado con las demás variables.
Ha confirmado la decisión anterior de evitar el alto contenido en grasa de 100% Nat. Bran Oats & Honey. Probar All-Bran with Extra Fiber y Fiber One fue también una decisión inteligente. Estos dos cereales con alto contenido en fibra ofrecen el beneficio añadido de aportar una menor cantidad de calorías, grasa y azúcares y una mayor cantidad de potasio. Además, ha decidido evitar los cereales con altos niveles de carbohidratos porque es probable que contengan una alta cantidad de calorías.