La representación gráfica o visualización de los datos es importante para cualquier análisis de datos y se debería realizar antes de aplicar cualquier prueba estadística o construcción de modelos. Para ilustrar por qué es importante visualizar los datos en un paso inicial del análisis de datos, considere el ejemplo siguiente:
1. Seleccione Ayuda > Carpeta de muestras de datos y abra Anscombe.jmp (F. J. Anscombe (1973), American Statistician, 27, 17-21).
Estos datos constan de cuatro pares de variables X e Y.
2. En el panel Tabla, haga clic en el triángulo verde que encontrará junto al script The Quartet.
El script crea una regresión lineal simple con cada par de variables utilizando Ajustar Y en función de X. La opción Mostrar puntos está desactivada, así que no es posible ver ningún dato en los gráficos de dispersión. La Figura 5.2 muestra el ajuste del modelo y otra información de resumen de cada una de las regresiones.
Figura 5.2 Cuatro modelos
Observe que los cuatro modelos y los valores R cuadrado son casi idénticos. El modelo ajustado en cada caso es, esencialmente, Y = 3 + 0,5X, y el valor R cuadrado prácticamente 0,66 en todos los casos. Si el análisis de datos solo tuviese en cuenta la información del resumen mostrada anteriormente, concluiríamos fácilmente que la relación entre X e Y es la misma en todos los casos. No obstante, hasta ahora no hemos visto los datos. La conclusión podría ser errónea.
1. Pulse Ctrl.
2. Haga clic en el triángulo rojo situado junto a cualquiera de los Ajustes bivariantes y seleccione Mostrar puntos.
Figura 5.3 Gráficos de dispersión con puntos añadidos
Los gráficos de dispersión muestran que la relación entre X e Y no es la misma en los cuatro casos, aunque las líneas que describen las relaciones sean las mismas:
• El gráfico 1 representa una relación lineal.
• El gráfico 2 representa una relación no lineal.
• El gráfico 3 representa una relación lineal salvo por un valor atípico.
• En el gráfico 4, todos los puntos tienen x = 8, salvo uno.
Este ejemplo ilustra que las conclusiones que sólo se basan en la estadística pueden ser inadecuadas. Por consiguiente, al principio de cualquier análisis de datos se debería realizar una exploración visual.