Tipos de gráficos

A continuación se muestra una lista de varios tipos de gráficos que se pueden utilizar en análisis exploratorio de datos (EDA). Haga clic en cada uno de ellos para ver un ejemplo de ese tipo de gráfico, el número de variables que utiliza y una descripción de su finalidad.

Histogramas

  • Número de variables: 1.
  • Muestra la forma o la distribución de los datos; puede ayudar a identificar valores atípicos.
  • Más información sobre histogramas.
Figura 1: Histograma

Histogramas colocados en paralelo

  • Número de variables: 2
  • Muestra las formas o las distribuciones de grupos de datos; puede ayudar a identificar valores atípicos.
Figura 2: Histogramas colocados en paralelo con dos variables

Diagramas de barras

  • Número de variables: 1.
  • Muestra el conteo de frecuenciade valores para una variable categórica; puede ser vertical (como se muestra a continuación, en la figura 3) u horizontal.
  • Más información sobre el diagramas de barras.
Figura 3: Diagramas de barras con conteo

Diagramas de barras con datos agrupados

  • Número de variables: 2 o más, según cuántas variables se usen para definir los grupos.
  • Muestra diagramas de barras para grupos definidos por otra variable. Los diagramas de barras agrupadas tienen un gráfico separado para cada nivel de la variable de agrupación.
Figura 4: Diagramas de barras con datos agrupados

Diagramas de barras apiladas

  • Número de variables: 2 o más, según cuántas variables se usen para definir los grupos.
  • Muestra diagramas de barras para grupos definidos por otra variable. Los diagramas de barras apiladas tienen una barra por cada nivel de la variable de agrupación. Los colores o patrones para conteos de otra variable están apilados en cada barra.
Figura 5: Diagramas de barras apiladas que muestran una barra individual para cada nivel de la variable de agrupación

Diagramas de Pareto

  • Número de variables: 1.
  • Muestra conteos de frecuencia ordenados para una variable. Útil para resaltar el "puñado esencial". El diagrama de Pareto, es un tipo de diagrama de barras que suele incluir una curva de porcentaje acumulado.
  • Más información sobre el diagrama de Pareto.
Figura 6: Diagrama de Pareto que muestra conteos de frecuencia ordenados para una variable.

Diagramas de barras empaquetadas

  • Número de variables: 1.
  • Muestra conteos de frecuencia ordenados para una variable. Se usa en lugar del diagrama de Pareto, en especial si hay muchas categorías. Útil para resaltar el "puñado esencial".
  • Más información sobre el diagramas de barras empaquetadas.
Figura 7: Diagrama de barras empaquetadas que muestra conteos de frecuencia ordenados para una variable en muchas categorías

Gráficos en mosaico

  • Número de variables: 2 o más.
  • Muestra la posible relación entre variables categóricas. Útiles para localizar errores de datos, como categorías mal escritas. Un tipo especial de gráfico de barras apilado que muestra más de una variable en el eje X.
  • Más información sobre gráficos en mosaico.
Figura 8: Gráfico en mosaico que muestra posibles relaciones entre variables categóricas

Diagramas en árbol

  • Número de variables: 2 o más.
  • Muestra la posible relación entre variables. Un tipo especial de gráfico de barras apilado que se colorea, ordena y dimensiona según distintas variables.
  • Más información sobre diagramas en árbol.
Figura 9: Diagrama en árbol que muestra relaciones entre variables

Diagramas de caja

  • Número de variables: 1.
  • Muestra la distribución de los datos. Partes de la caja identifican el percentil 25, la mediana (percentil 50) y el percentil 75. En función de los datos, los bigotes muestran el mínimo y el máximo; los valores atípicos llegan más allá de estos. Se usan para localizar errores de datos y explorar una variable.
  • Más información sobre diagramas de caja.
Figura 10: Diagrama de caja

Diagramas de caja colocados en paralelo

  • Número de variables: 2 o más, según cuántas variables se usen para definir los grupos.
  • Muestra diagramas de caja para grupos definidos por otra variable. Se usan para localizar errores de datos y explorar dos o más variables.
Figura 11: Diagramas de caja colocados en paralelo que se utilizan para explorar dos o más variables

Gráficos de cuantiles normales

  • Número de variables: 1.
  • Determina si la hipótesis de que una variable tiene una distribución normal es razonable.
Figura 12: Gráfico de cuantiles normales que se utiliza para determinar si una variable tiene una distribución normal

Gráficos de líneas

  • Número de variables: 2
  • Muestra cambios a lo largo del tiempo. El eje X debe contener valores ordenados por tiempo. Los gráficos lineales, también llamados diagramas de líneas o gráficos de ejecución, son útiles para localizar valores atípicos.
  • Más información sobre gráficos lineales.
Figura 13: Gráfico de líneas que muestra los cambios a lo largo del tiempo

Gráficos de líneas con categorías

  • Número de variables: 2 o más, según cuántas variables se usen para definir los grupos.
  • Muestra varios diagramas de barras para grupos definidos por otra variable. Se usan para entender los cambios a lo largo del tiempo para múltiples variables y para hallar valores atípicos.
Figura 14: Gráfico de líneas con categorías que se utiliza para comprender cómo cambian múltiples variables a lo largo del tiempo

Gráficos de dispersión

  • Número de variables: 2 o más, según cuantas variables se usen para definir los grupos por colores y marcadores.
  • Muestra la posible relación entre dos variables e identifica valores atípicos. Agregar colores y/o marcadores de otras variables puede ayudar con el análisis exploratorio (EDA). Agregar líneas de referencia o límites de especificación puede ayudar a identificar valores atípicos.
  • Más información sobre diagramas de dispersión.
Figura 15: Gráfico de dispersión que muestra una posible relación entre dos variables

Matriz de gráficos de dispersión

  • Número de variables: varias.
  • Muestra posibles relaciones entre múltiples variables, examinando todas las combinaciones de dos. Se pueden agregar gráficos adicionales: histogramas para cada variable a fin de identificar valores atípicos, elipses de densidad para cada gráfico de dispersión a fin de identificar valores atípicos multidimensionales, mapas de calor de correlaciones para aclarar posibles relaciones.
Figura 16: Gráfico de dispersión que muestra posibles relaciones entre múltiples variables

Gráficos circulares

  • Número de variables: 1 o más.
  • Muestra relaciones de variables con el total. Añadir categorías en varios gráficos circulares es más útil que un solo gráfico circular. Para una sola variable, un diagrama de barras hace que las diferencias de valor pequeñas sean más fáciles de distinguir.
  • Más información sobre gráficos circulares.
Figura 17: Gráfico circular que muestra relaciones de la parte con el todo para una variable

Mapas de calor

  • Número de variables: 2 o más.
  • Muestra la posible relación entre variables. Se suele usar para datos que cambian con el tiempo. Usa colores para explorar la relación entre variables.
  • Más información sobre mapas de calor.
Figura 18: Mapa de calor que muestra posibles relaciones entre variables

Diagramas de tallo y hojas

  • Número de variables: 1.
  • Muestra la forma de los datos e identifica valores atípicos. Ya empleados de forma generalizada antes de la implantación de los ordenadores; los histogramas se usan a menudo hoy en día.
Figura 19: Diagrama de tallo y hojas que muestra la forma de los datos e identifica valores atípicos