Análisis exploratorio de datos
¿Qué es el análisis exploratorio de datos?
El análisis exploratorio de datos (EDA por sus siglas en inglés) implica el uso de gráficos y visualizaciones para explorar y analizar un conjunto de datos. El objetivo es explorar, investigar y aprender, no confirmar hipótesis estadísticas.
¿Cuándo debo utilizarlo?
El análisis exploratorio de datos es una potente herramienta para explorar un conjunto de datos. Incluso cuando su objetivo es efectuar análisis planificados, el EDA puede utilizarse para limpiar datos, para análisis de subgrupos o simplemente para comprender mejor los datos. Un paso inicial importante en cualquier análisis de datos es representar los datos gráficamente.
Definición de análisis exploratorio de datos
El proceso de utilizar resúmenes numéricos y visualizaciones para explorar sus datos e identificar posibles relaciones entre variables se denomina análisis exploratorio de datos (EDA por sus siglas en inglés).
El análisis exploratorio de datos es un proceso de investigación en el que se usan estadísticas de resumen y herramientas gráficas para llegar a conocer los datos y comprender lo que se puede averiguar de ellos.
Con el EDA, se pueden hallar anomalías en los datos, como valores atípicos u observaciones inusuales, revelar patrones, comprender posibles relaciones entre variables y generar preguntas o hipótesis interesantes que se pueden comprobar más adelante mediante métodos estadísticos más formales.
El análisis exploratorio de datos es como el trabajo detectivesco: se buscan claves y pistas que puedan conducir a la identificación de las posibles causas de origen del problema que se intenta resolver. Se exploran las variables de una en una, luego de dos en dos, y luego muchas variables a la vez.
Aunque el EDA abarca tablas de resúmenes estadísticos como la media y la desviación estándar, la mayor parte de las personas se centran en los gráficos. Se utiliza una variedad de gráficos y herramientas exploratorias, y se va allá donde se dirijan los datos. Si un gráfico o análisis no es informativo, mire los datos desde otra perspectiva.
Como el EDA implica explorar, es un proceso iterativo. Lo más probable es que se averigüen diferentes aspectos sobre los datos a partir de diferentes gráficos. Los objetivos típicos son comprender:
- La distribución de variables en su conjunto de datos. Esto es, ¿cuál es la forma de sus datos? ¿Está sesgada la distribución? ¿Tiene forma de montículo? ¿Es bimodal?
- Las relaciones entre variables.
- Si sus datos tienen o no valores atípicos o puntos inusuales puede indicar problemas de calidad de los datos o conducir a descubrimientos interesantes.
- Si sus datos tienen o no patrones temporales.