Diagrama de caja

¿Qué es un diagrama de caja?

Los diagramas de caja muestran la distribución de datos para una variable continua. 

¿Cómo se utilizan los diagramas de caja?

Los diagramas de caja ayudan a ver el centro y la extensión de los datos. También se pueden utilizar como herramienta visual para comprobar normalidad o identificar puntos que podrían ser valores atípicos. 

Un diagrama de caja, ¿es lo mismo que un diagrama de caja y bigotes?

Sí. Los diagramas de caja se pueden llamar también diagramas de caja de valores atípicos o diagramas de caja de cuantiles. Cada uno de ellos es una variación sobre la forma de dibujar el diagrama de caja.

¿En qué cuestiones conviene fijarse?

Al utilizar un diagrama de caja, busque los valores extremos de sus datos. Tenga cuidado si el conjunto de datos es reducido. Si tiene variables categóricas o nominales, utilice mejor un diagrama de barras.

Los diagramas de caja muestran la distribución de los datos

El término «diagrama de caja» se refiere a los diagramas de caja de valores atípicos. También se los conoce como diagramas de caja y bigotes o diagramas de caja de Tukey. Consulte la sección «Comparar diagramas de caja de cuantiles y de valores atípicos» para ver otro tipo de diagramas de caja.

Estas son las partes básicas de un diagrama de caja:

  • La línea central de la caja indica la mediana de los datos. Una mitad de los datos está por debajo de este valor, y la otra por encima. Si los datos son simétricos, la mediana estará en el centro de la caja. Si los datos están sesgados, la mediana estará más cerca de la parte superior o inferior de la caja.
  • Los extremos de arriba y abajo de la caja indican los cuantiles, o percentiles, 25 y 75. Estos dos cuantiles también se conocen como cuartiles, porque separan cuartos (25 %) de los datos. La longitud de la caja es la diferencia entre estos dos percentiles y se conoce como rango intercuartílico (IQR).
  • Las líneas que se extienden desde la caja se llaman bigotesLos bigotes representan la varianza esperada de los datos. Estos bigotes se extienden 1,5 veces el IQR desde los extremos superior e inferior de la caja. Si los datos no llegan hasta el final de los bigotes, estos se ajustan a los valores mínimo y máximo de los datos. Si hay datos que queden por encima o por debajo de los extremos de los bigotes, se los representa con puntos. Estos puntos se conocen como valores atípicos. Un valor atípico es el que supera la varianza esperada. Merece la pena revisar estos puntos de datos para aclarar si son atípicos o erróneos. Los bigotes no incluyen dichos valores.

La figura 1 muestra un diagrama de caja: 

Figura 1: Diagrama de caja con etiquetas percentiles

La mediana está cerca del centro de la caja en el gráfico de la figura 1, lo que nos indica que los valores de datos son más o menos simétricos. Observe la figura 4 a continuación para ver en qué datos no es el caso.

Comparar diagramas de caja de valores atípicos y de cuantiles

Tanto los diagramas de caja de cuantiles como los de valores atípicos muestran la mediana y los percentiles 25 y 75. El percentil 25 también es el cuantil 25, lo que significa que el 25 % de los datos tiene valores más bajos que el del cuantil 25. Un diagrama de caja de cuantiles añade los cuantiles 2,5, 10, 90 y 97,5 al diagrama de caja de valores atípicos. La figura 2 muestra los diagramas de caja de valor atípico y de cuantiles de los mismos datos.

Figura 2: Comparación entre diagramas de caja de cuantiles y de valores atípicos

Comparar diagramas de caja e histogramas

Tanto los diagramas de caja como los histogramas muestran la forma de los datos. Ambos pueden usarse para identificar valores atípicos o inusuales. La figura 3 muestra un diagrama de caja y un histograma de los mismos datos. En este ejemplo el histograma es vertical en lugar de horizontal.

Figura 3: Comparación entre diagrama de caja e histograma

Quizá encuentre útil usar ambos tipos de gráficos con sus datos. El diagrama de caja ayuda a ver el sesgo, porque la línea de la mediana no estará cerca del centro del cuadro si los datos están sesgados. El diagrama de caja ayuda a identificar los percentiles 25 y 75 mejor que el histograma, mientras que este ayuda a ver la forma global de sus datos mejor que el diagrama de caja.

¿Cómo se crean los diagramas de caja?

Antes, los diagramas de caja se creaban manualmente. Actualmente, la mayoría de personas utilizan software para crearlos, evitando así tener que hacer aritmética manualmente y reduciendo los errores. Un diagrama de caja se basa en lo que se denomina el resumen de cinco números, que son el mínimo, el percentil 25, la mediana, el percentil 75 y el calor máximo de un conjunto de datos. Con estos cinco números se puede crear un diagrama de caja, lo que significa que, con cualquier conjunto de datos, se puede generar un diagrama de caja en cinco pasos:

  1. Calcular la mediana, el percentil 25 y el percentil 75.
  2. Calcular el rango intercuartílico (IQR) como la diferencia entre el percentil 75  y el 25.
  3. Calcular la longitud máxima de las patillas multiplicando el IQR por 1,5.
  4. Identificar los valores atípicos.
  5. Usar las estadísticas calculadas para representar los resultados y trazar un diagrama de caja.

 

Ejemplo de diagrama de caja

Los datos de los cereales en el siguiente diagrama de caja muestran los resultados de medir las calorías por ración de 76 tipos de cereales. La variable calorías es continua, de manera que usar un diagrama de caja es razonable. 

Figura 4: Diagrama de caja que muestra datos continuos

Estos datos están sesgados, ya que la mediana de 102 está mucho más próxima al percentil 25 de 101 que al percentil 75 de 200. 

Adición de la media a un diagrama de caja

Según el software que utilice, puede mejorar el diagrama de caja. JMP puede agregar un rombo de media, como se muestra en la figura 5. La parte superior e inferior del rombo son un intervalo de confianza del 95 % para la media. El centro del rombo es el promedio de la muestra, que es una estimación de la media de la población.

Figura 5: Diagrama de caja que indica la media estadística

Para los datos de los cereales, la media es superior a la mediana. La diferencia entre media y mediana indica que estos datos son asimétricos y no es probable que tengan una distribución normal.

Con JMP también se pueden añadir funciones a los gráficos. En el diagrama de caja de la figura 6 se ve una línea gruesa verde puesta en el centro del rombo de medias, que ayuda a mostrar la diferencia entre media y mediana.

Figura 6: Diagrama de caja con línea agregada para indicar la diferencia entre la media estadística y la mediana

JMP incluye también herramientas de anotación, como se muestra en la figura 7:

Calories in Cereal Box Plot with Statistics
Figura 7: Diagrama de caja que muestra un breve resumen estadístico

Este gráfico resume las estadísticas básicas de calorías y muestra la distribución de los datos, resaltando que están sesgados y no siguen una distribución normal.

Los diagramas de caja destacan los valores atípicos

Los diagramas de caja ayudan a identificar puntos de datos interesantes o atípicos. Estos valores se representan como puntos de datos más allá de los bigotes. La figura 8 muestra un diagrama de caja con tres valores atípicos, indicados por tres puntos rojos por encima del bigote superior. Estos tres puntos tienen un valor de más de 1,5 veces el IQR. Los puntos mayores que 1,5 veces el IQR salen del rango esperado de varianza de datos. 

Box Plot with Outliers
Figura 8: Diagrama de caja que muestra valores atípicos

Los valores atípicos afectan a la media, la mediana y otros percentiles. Como los puntos extremos aparecen resaltados en los diagramas de caja, se pueden identificar fácilmente para investigarlos. Puede que descubra que los valores atípicos son errores de los datos, o quizá que son inusuales por otro motivo. Por ejemplo, si los tres valores atípicos en la figura 8 están fuera del rango esperado de valores, tendrá que averiguar si son puntos de datos válidos o no.

Ejemplo de diagrama de caja por grupos

Si sus datos tienen grupos, quizá los comprenda mejor creando diagramas de caja paralelos, lo que le aporta una manera sencilla y potente de compararlos. 

Una forma de medir el estado físico de una persona es medir su porcentaje de grasa corporal. La mayoría de guías asumen una diferencia entre la grasa corporal de hombres y mujeres. (Para más información sobre estos datos, visite la página sobre la prueba t para dos muestras). La variable «Grasa corporal» es continua, por lo que un diagrama de caja es un método gráfico adecuado para representar la distribución de los datos. En la figura 9 se muestran diagramas de caja paralelos para hombres y mujeres.

Men and Women Box Plots
Figura 9: Diagramas de caja colocados en paralelo comparando la extensión de los datos de porcentaje de grasa corporal entre hombres y mujeres

A partir de este gráfico, se puede ver que los hombres tienen una mediana de grasa corporal más baja que las mujeres. También se puede ver que los intervalos de hombres y de mujeres se superponen. Los datos para hombres tienen un sesgo superior que los de mujeres. Ninguno de los grupos tiene valores atípicos. Con JMP, se pueden agregar rombos para las medias, un línea para cada media y anotaciones para estos diagramas de caja.

Utilizar diagramas de caja independientes  lado a lado para los grupos puede ayudar a mostrar las diferencias de grupo y a identificar valores atípicos.

Diagramas de caja y tipos de datos

 

Figura 10: Datos continuos, adecuados para diagramas de caja
Figura 11: Datos categóricos, más adecuados para diagramas de barras que para diagramas de caja
Figura 12: Diagrama de caja que muestra datos categóricos, que no son adecuados para este tipo de gráfico
Figura 13: Datos nominales, más adecuados para diagramas de barras que para diagramas de caja
Figura 14: Diagrama de caja que muestra datos nominales, que no son adecuados para este tipo de gráfico

Datos continuos: adecuados para diagramas de caja

Los diagramas de caja tienen sentido para datos continuos, ya que se miden sobre una escala con muchos valores posibles. Algunos ejemplos de datos continuos son:

  • Edad
  • Presión sanguínea
  • Peso
  • Temperatura
  • Velocidad

Para todos estos ejemplos, un diagrama de caja es una herramienta gráfica adecuada para explorar la distribución de datos.

Datos nominales o categóricos: use diagramas de barras

Los diagramas de caja no tienen sentido para datos nominales o categóricos, puesto que se miden en una escala con valores específicos. En su lugar, use diagramas de barras.

En datos categóricos, la muestra suele dividirse en grupos, y las respuestas pueden tener un orden definido. Por ejemplo, en una encuesta en la que se le pide su opinión en una escala de «muy en desacuerdo» a «muy de acuerdo» sus respuestas serán categóricas.

Con los datos nominales, la muestra también se divide en grupos, pero sin un orden particular. Un ejemplo de variable nominal sería el país de residencia. Puede usar una abreviatura del país, o códigos numéricos para asociarlos al nombre. De un modo u otro, solo le está poniendo nombre a los distintos grupos de datos.