Gráfico de dispersión
¿Qué es un gráfico de dispersión?
Un gráfico de dispersión muestra la relación entre dos variables continuas.
¿Cómo son los gráficos de dispersión?
Los gráficos de dispersión se utilizan para mostrar relaciones. Para la correlación, los gráficos de dispersión ayudan a mostrar la fuerza de la relación lineal entre dos variables. Para la regresión, los gráficos de dispersión suelen incorporar una línea de ajuste. En control de calidad, los gráficos de dispersión pueden con frecuencia incluir límites de especificación o líneas de referencia.
Los gráficos de dispersión muestran relaciones
Los gráficos de dispersión muestran cómo están relacionadas dos variables continuas poniendo una variable en el eje x y una segunda, en el eje y.
Un gráfico de dispersión para regresión incluye la variable de respuesta en el eje y y la de entrada en el eje x.
Ejemplos de gráfico de dispersión
Ejemplo 2: Relación creciente
El gráfico de dispersión de la figura 1 muestra una relación creciente. En el eje X se muestra el número de empleados de una empresa, y en el eje Y, los beneficios de la empresa. El gráfico de dispersión muestra que cuando el número de empleados aumenta, el beneficio aumenta. Las empresas con menos empleados (en el lado izquierdo del gráfico) tienen menos beneficios, y las que tienen más empleados, beneficios más altos. Es un ejemplo muy simple, ya que son muchas las variables que pueden afectar a los beneficios de una empresa.
Ejemplo 2: Relación decreciente
El gráfico de dispersión de la figura 2 muestra una relación decreciente. En el eje X se muestran los gramos de sodio para un tipo de carne procesada; en el Y se muestra el coste por kilogramo de proteína. El gráfico de dispersión muestra que, con el incremento del sodio, el coste de la proteína se reduce. La carne con cantidades menores de sodio (en el lado izquierdo del gráfico) tiene costes de proteína más altos, mientras que la carne con más sodio tiene costes de proteína menores. Esto es razonable, puesto que la sal se puede añadir a carne de menor calidad (y, por tanto, de menor coste) y mejorar su sabor, pero incrementando la cantidad de sodio.
Ejemplo 3: Sin correlación
El diagrama de dispersión de la figura 3 no revela correlación entre las dos variables. El eje X muestra el tamaño de carga para una tela vaquera prelavada; el eje Y muestra el desgaste de fibra medido. El diagrama de dispersión muestra una nube de puntos aleatoria. Aunque hay quien vería una reducción leve del desgaste a medida que aumenta el tamaño de carga en el lado derecho de la gráfica, podemos usar una regresión lineal simple para comprobar esta idea.
Ejemplo 4: correlación curvilínea
El diagrama de dispersión de la figura 4 muestra una correlación curvilínea entre dos variables. El eje X muestra la tasa de natalidad de un grupo de países; el eje Y muestra su tasa de mortalidad. El diagrama de dispersión muestra una correlación descendente hasta tasas de natalidad de entre 25 y 30. A partir de ese punto, la correlación se vuelve ascendente.
Ejemplo 5: Valores atípicos en gráficos de dispersión
Los puntos inusuales, o valores atípicos, de los datos destacan en los gráficos de dispersión.
En la Figura 5 se muestra un gráfico de dispersión, mientras que la figura 6 muestra los mismos datos sin el valor atípico. El valor atípico individual de la esquina superior derecha afecta a su capacidad de visualizar los datos en el gráfico de dispersión. Cuando hay un punto de datos inusual en un gráfico de dispersión, se puede investigar para hallar el motivo de ese valor atípico. Puede ser conveniente mostrar los datos con el valor atípico y sin él.
Personalizar diagramas de dispersión
Los colores y marcadores se pueden usar para añadir detalles de otras variables al diagrama de dispersión, además de líneas de referencia para indicar datos como límites de especificación.
Usar colores y marcadores
La figura 7 muestra un diagrama de dispersión de peso frente a caballos de potencia para 116 modelos de coche.
A partir del gráfico básico, vemos una relación creciente. Los coches más pesados tienen má s potencia; los más ligeros, menos.
El país de origen de los coches se especifica como Estados Unidos, Japón u otros, y los tipos de coche son deportivo, compacto, pequeño, medio o grande. El gráfico de dispersión básico se puede mejorar mediante el uso de colores y marcadores para estas dos variables.
El gráfico de dispersión de la figura 8 utiliza colores para distinguir los puntos de datos de los tres valores de país de origen.
Es fácil ver que los coches con una potencia de más de 225 caballos son de Japón o de EE.UU. Los coches con la potencia más baja no incluyen ningún coche de EE.UU.
También se pueden agregar diferentes marcadores para los distintos tipos de coche.
Los coches con una potencia de 200 o más caballos son medios o deportivos, según muestran los cuadrados y los círculos. Todos los coches con las potencias más bajas son coches pequeños, como muestran los triángulos que apuntan hacia arriba. El coche más pesado es un coche de gran tamaño fabricado en EE.UU., como muestra el rombo verde situado cerca de la parte superior del gráfico, pero la potencia de este coche es media.
Con sus datos, explore las opciones de utilizar colores, marcadores o ambos para agregar dimensiones a un gráfico de dispersión.
Agregar líneas de referencia
Las líneas de referencia pueden ser un útil complemento para un gráfico de dispersión. Supongamos que necesitamos saber qué coches no pueden atravesar un viejo puente de madera que tiene un límite de peso de 1800 kg. El gráfico de dispersión de la figura 10 tiene ahora una línea de referencia con una anotación que explica su relevancia.
En la figura 11 se muestra el mismo gráfico de dispersión con etiquetas para los mismos cuatro coches que no pueden atravesar el viejo puente.
Añadir límites de especificación
En muchas situaciones se especifican límites para las variables. Usando los datos sobre carne de la figura 2, el encargado de compras de unas cantinas escolares tiene que adquirir carne con al menos 300 gramos de sodio, con un objetivo de 450 gramos y un límite máximo de 600 gramos. La figura 12 muestra el diagrama de dispersión de estos límites de especificación.
Con estas líneas añadidas, ahora es fácil ver que hay cuatro tipos de carne procesada que no se pueden comprar para la cafetería de la escuela. Se pueden añadir a estos puntos etiquetas y colores, como se muestra en la figura 13, para proporcionar detalles adicionales. El comprador puede compartir este gráfico para mostrar por qué algunas carnes no entran dentro de las opciones.
Matriz de gráficos de dispersión
Una matriz de gráficos de dispersión puede mostrar la relación entre múltiples variables. Después de representar todas las combinaciones de ambas variables, la matriz puede revelar relaciones entre variables para destacar cuáles pueden ser importantes. La matriz también puede identificar datos atípicos en distintos diagramas de dispersión.
La figura 14 muestra la matriz de gráficos de dispersión de los datos de distintos modelos de coche. El diagrama de dispersión usa los mismos colores y marcadores que las figuras 9-11. El primer diagrama de dispersión en la columna de la izquierda revela la relación entre peso y radio de giro. Los triángulos de arriba y abajo de la matriz son un reflejo el uno del otro.
La matriz muestra que todas las combinaciones de las dos variables tienen una relación proporcional.
Con JMP, se puede agregar más información a la matriz de gráficos de dispersión, como histogramas de cada variable de la diagonal. También se pueden sustituir los diagramas de dispersión del triángulo superior con la correlación entre pares de variables. Pueden verse estas personalizaciones en la matriz de gráficos de dispersión de la figura 15. La leyenda de la derecha tiene un mapa de calor de las correlaciones, indicando las relaciones positivas fuertes entre combinaciones de dos variables en rojo oscuro.
Esta matriz solo muestra posibles valores atípicos en el histograma de Desplazamiento.
Con JMP, aún se puede agregar más información a la matriz, como elipses de densidad para cada gráfico de dispersión para poder ver valores atípicos en múltiples dimensiones. En la figura 16 se muestra cómo la selección de un valor atípico en un gráfico de dispersión lo resalta en todos los otros gráficos de dispersión.
La matriz de gráficos de dispersión de la figura 16 muestra las elipses de densidad de cada diagrama de dispersión individual. Los círculos rojos contienen cerca del 95 % de los datos. Se pueden explorar los puntos fuera del círculo para comprobar si hay valores atípicos multivariante. En la figura 16, se ha seleccionado el círculo azul suelto que es un valor atípico en el diagrama de dispersión de peso por radio de giro. Este punto también es atípico en otros diagramas de dispersión, pero no en todos. En el gráfico de desplazamiento por caballos de potencia, este punto se destaca en el centro de la elipse de densidad.
Al deseleccionar el punto, todos los puntos pasan a mostrar el mismo brillo, como se ve en la figura 17. En la elipse de densidad del gráfico de dispersión de desplazamiento por caballos de potencia, el motivo por el que aparecen valores atípicos se revela en el histograma de desplazamiento. Hay varios puntos fuera de la elipse a la derecha del diagrama de dispersión. Los colores muestran que todos estos puntos corresponden a coches fabricados en EE. UU., mientras que los marcadores indican que son coches deportivos, medios o grandes. Las anotaciones que explican los colores y los marcadores pueden mejorar la matriz aún más.
Para sus datos, puede utilizar una matriz de gráficos de dispersión para explorar muchas variables al mismo tiempo.
Gráficos de dispersión y tipos de datos
Datos continuos: adecuados para gráficos de dispersión
Los gráficos de dispersión tienen sentido para datos continuos, ya que se miden sobre una escala con muchos valores posibles. Algunos ejemplos de datos continuos son:
- Edad
- Presión sanguínea
- Peso
- Temperatura
- Velocidad
Datos nominales o categóricos: use diagramas de barras
Los gráficos de dispersión no tienen sentido para datos nominales o categóricos, puesto que se miden en una escala con valores específicos. En su lugar, use diagramas de barras.
En datos categóricos, la muestra se divide en grupos, y las respuestas pueden tener un orden definido. Por ejemplo, en una encuesta en la que se le pide su opinión en una escala de «muy en desacuerdo» a «muy de acuerdo» sus respuestas serán categóricas.
Con los datos nominales, la muestra también se divide en grupos, pero sin un orden particular. Un ejemplo de variable nominal sería el país de residencia. Puede usar una abreviatura del país, o códigos numéricos para asociarlos al nombre. De un modo u otro, solo le está poniendo nombre a los distintos grupos de datos.
Para personalizar un gráfico de dispersión, puede utilizar variables categóricas o nominales. Puede asignar colores o marcadores distintos a los niveles de estas variables.