Histograma

¿Qué es un histograma?

Un histograma muestra la forma de los valores, o la distribución, de una variable continua.

¿Para qué se usan los histogramas?

Los histogramas ayudan a ver el centro, la extensión y la forma de un conjunto de datos. También se pueden usar como herramienta visual para comprobar la normalidad. Los histogramas son una de las siete herramientas básicas de control de calidad estadístico.

¿En qué cuestiones conviene fijarse?

Los histogramas ofrecen una buena forma de evaluar los datos. Se pueden usar para comprobar valores extremos o atípicos y ayudar a comprender la distribución de sus datos. Es importante comprender la distribución de una variable a la hora de escoger herramientas de análisis estadístico adecuadas.

Los histogramas muestran la forma de los datos

Los histogramas muestran la forma de sus datos. El eje horizontal muestra sus valores de datos, con cada barra correspondiendo a un rango de valores. El eje vertical muestra cuántos puntos de datos tienen valores en el rango de cada barra. En el histograma de la figura 1, las barras muestran el conteo de cada rango. Por ejemplo, la primera barra corresponde al conteo de valores que están entre 30 y 35.

El histograma revela que el centro de los datos cae cerca del 45 y que la extensión de los mismos va de unos 30 a 65. También revela que la forma de los datos es aproximadamente en colina. Esta forma es una pista visual de que probablemente los datos tengan una distribución normal. 

Figura 1: Histograma

¿En qué se diferencian diagramas de barras e histogramas?

La diferencia fundamental entre histogramas y diagramas de barras es el tipo de datos que se representan. Los histogramas se usan en datos continuos, mientras que los diagramas de barras se usan en datos categóricos o nominales.  

Los histogramas no tienen espacio entre barras. Las barras representan la cantidad de valores que se dan en un rango específico del eje horizontal.  Los diagramas de barras tienen espacio entre barras. Las barras representan los valores de medida de cada categoría.

¿Cómo creo un histograma?

Para generar un histograma, se debe determinar el rango de valores de datos de cada barra. Los rangos de las barras se conocen como clases o intervalos. La mayoría de veces las clases son del mismo tamaño. A clases iguales, la altura de las barras muestra la frecuencia de los valores de datos en cada una. Por ejemplo, al crear un histograma de edades en años, podríamos decidir clasificar por décadas (0-10, 11-20 y así). La altura de las barras nos mostraría la cantidad de personas en cada década.

En el software, las clases se definen por el programa. Sin embargo, algunas herramientas de software permiten modificar el número de clases y sus puntos de inicio, lo que permite explorar y comprender mejor los datos. 

La figura 2 muestra los mismos datos que la figura 1 pero con muchas más barras. Aún se puede ver el centro, la extensión y la forma de los datos. Sin embargo, ver la forma general resulta más difícil que en la primera figura.

 

Figura 2: Histograma de la figura con más barras

En la figura 3 se muestran los mismos datos que en la figura 1 pero con solo tres barras, o clases. Los diagramas de caja ayudan a ver el centro y la extensión de los datos.

Figura 3: Histograma de la figura 1 con menos barras

La animación siguiente muestra cómo utilizar JMP y su herramienta de mano para explorar el cambio de los límites de clase para los datos de las figuras 1-3.

Figura 4: Animación que muestra la herramienta de ajuste de clase interactiva disponible en JMP.

Quizá quiera cambiar los valores y los incrementos de los ejes para explorar sus datos, incluso si su software no le permite explorar de manera interactiva.

Cómo se observan los valores de datos extremos en los histogramas

Los histogramas se ven afectados por los valores extremos, o valores atípicos. En las figuras 5 y 6 se muestra un conjunto de datos con un valor atípico incluido y excluido. 

Figura 5: Histograma que muestra datos sin valores atípicos
Figura 6: Histograma que muestra datos con un valor atípico

En las figuras anteriores, ambos histogramas tienen una escala en el eje horizontal de 20 a 90. La mayor parte del software mostraría el histograma sin el valor atípico a una escala más pequeña. La figura 6 utiliza la misma escala para mostrar cómo aparecen los valores atípicos en un histograma, más arriba que el resto de valores de datos. Puede que también haya valores atípicos más abajo que el resto de valores de datos o en ambos extremos de los datos.

Cómo se observa el coeficiente de asimetría en los histogramas

No todos los histogramas son simétricos. Los histogramas muestran la distribución de sus datos, y hay muchos tipos de distribución habituales. Por ejemplo, a menudo los datos no son simétricos. En estadística esto se conoce como asimetría de datos. Por ejemplo, la duración de batería de un teléfono suele ser asimétrica, con unos modelos mostrando una duración mucho mayor que los demás. 

Figura 7: Histograma que muestra datos casi simétricos
Figura 8: Histograma que muestra datos con sesgo a la izquierda (negativo)
Figura 9: Histograma que muestra datos con sesgo a la derecha (positivo)

En la Figura 7 se muestran datos casi simétricos. Si piensa en plegar el gráfico por la mitad, los dos lados serán prácticamente iguales.

En el histograma de la Figura 8 se muestran datos no simétricos. Están sesgados a la izquierda, con una cola izquierda más larga de valores que se prolonga hacia la izquierda. El sesgo estadístico es negativo. 

En el histograma de la figura 9 se muestran datos no simétricos. Están sesgados a la izquierda, con una cola izquierda más larga de valores que se prolonga hacia la derecha. El sesgo estadístico es positivo. 

¿Cómo son los grupos en datos observados en histogramas?

Si sabe que sus datos presentan grupos, construir histogramas para cada grupo puede ser más significativo que construir un único histograma. Sin embargo, si no tiene la seguridad de que haya grupos o no se ha dado cuenta, el histograma puede revelar un patrón que le permita descubrir grupos en los datos.

Por ejemplo, el gráfico de la figura 10 contiene datos para hombres y mujeres. Pensamos que puede haber una diferencia en los datos para hombres y para mujeres.

Figura 10: Histograma que muestra datos sobre diversos grupos

La forma de montículo de este gráfico representa datos con un centro cercano a 22 y una extensión de unos 7 a unos 32.

La figura 11 muestra los datos de hombres resaltados con la sección rayada de cada barra. Los datos de hombres parecen tener forma de montículo.

Figura 11: Histograma de la figura 10 resaltando los datos de hombres

El gráfico de la figura 12 muestra los datos de mujeres resaltados con barras rayadas. Estos datos tienen también una cierta forma de montículo.

Figura 12: histograma de la Figura 10 resaltando los datos de mujeres

Los gráficos anteriores muestran ejemplos en los que la diferencia entre grupos tiene impacto, pero la extensión general de valores es igual en ambos. Cuando compara los histogramas resaltados de hombres y mujeres, puede ver que los valores bajos son más frecuentes en hombres que en mujeres. Hay mucho solapamiento, pero los histogramas apoyan la idea de que existen diferencias entre hombres y mujeres. 

La figura 13 muestra datos de dos grupos muy distintos. Si observa el histograma general, los datos no tienen forma de montículo. Este gráfico representa los datos de un grupo resaltados con barras rayadas. Este grupo tiene forma de montículo, una extensión de 5 a 15 y un centro sobre 9. El gráfico representa los datos del segundo grupo con barras sólidas. No tiene forma de montículo, tiene una extensión de 20 a 32 y un centro sobre el 23.

Figura 13: Histograma que muestra datos donde los valores para cada grupo son notablemente diferentes

Estos gráficos ayudan a identificar una consideración importante: siempre que cree un histograma, piense si hay o no grupos en sus datos. Si hay alguna posibilidad de que haya grupos, lo más probable es que obtenga más información sobre los datos si crea distintos histogramas para cada grupo. En cierto software, se pueden explorar las diferencias entre grupos en un solo histograma, como se muestra en las figuras anteriores. 

Histogramas y tipos de datos

Datos continuos: apropiados para histogramas

Los histogramas tienen sentido para datos continuos, ya que se miden sobre una escala con muchos valores posibles. Algunos ejemplos de datos continuos son:

  • Edad
  • Presión sanguínea
  • Peso
  • Temperatura
  • Velocidad

Para todos estos ejemplos, un histograma es una herramienta gráfica adecuada para explorar la distribución de los datos.

Datos nominales o categóricos: use diagramas de barras

Los histogramas no tienen sentido para datos nominales o categóricos, puesto que se miden en una escala con solo algunos valores posibles. Utilice diagramas de barras en lugar de histogramas.

En datos categóricos, la muestra suele dividirse en grupos, y las respuestas tienen un orden específico. Por ejemplo, en una encuesta en la que se le pide su opinión en una escala de «muy en desacuerdo» a «muy de acuerdo» sus respuestas serán categóricas.

Con los datos nominales, la muestra también se divide en grupos, pero sin un orden particular. Un ejemplo de variable nominal sería el país de residencia. Puede usar una abreviatura del país, o códigos numéricos para asociarlos al nombre. De un modo u otro, solo le está poniendo nombre a los distintos grupos de datos.