Analyse exploratoire des données
Qu'est-ce que l'analyse exploratoire des données ?
L'analyse exploratoire des données comprend l'utilisation de graphiques et de visuels pour explorer et analyser un jeu de données. L'objectif est d'explorer, de rechercher et d'apprendre, plutôt que de confirmer les hypothèses statistiques.
Quand est elle utile ?
L'analyse exploratoire des données est un moyen puissant d'explorer un jeu de données. Même lorsque l'objectif est d'effectuer des analyses planifiées, l'analyse exploratoire des données peut être utilisée pour le nettoyage de données, l'analyse des sous-groupes ou simplement pour mieux comprendre vos données. Une étape initiale importante dans l'analyse des données consiste à représenter graphiquement les données.
Définition de l'analyse exploratoire des données
Le processus consistant à utiliser des résumés et des visualisations numériques pour examiner vos données et identifier les relations potentielles entre des variables est appelé analyse exploratoire des données.
L'analyse exploratoire des données est donc un processus d'enquête qui consiste à utiliser des résumés statistiques et des outils graphiques pour apprendre à connaître vos données et comprendre ce que vous pouvez en tirer.
Grâce à cette exploration, vous pouvez trouver des anomalies dans vos données, comme des valeurs aberrantes ou des observations inhabituelles, identifier des configurations, comprendre les relations potentielles entre des variables et formuler des questions ou des hypothèses intéressantes que vous pourrez tester ultérieurement à l'aide de méthodes statistiques plus formelles.
L'analyse exploratoire des données s'apparente à un travail d'investigation : vous recherchez des indices et des informations qui peuvent conduire à l'identification des causes potentielles du problème que vous essayez de résoudre. Vous examinez une variable à la fois, puis deux variables à la fois, et enfin plusieurs variables à la fois.
Bien que l'analyse exploratoire englobe des informations statistiques comme la moyenne et l'écart-type, la plupart des gens se concentrent sur les graphiques.Vous pouvez utiliser une variété de graphiques et d'outils exploratoires pour comprendre ce que vos données essaient de vous dire. Si un graphique ou une analyse n'est pas assez informatif, vous devez examiner les données sous un autre angle.
Comme cette approche implique une certaine exploration, elle est itérative. Vous pourrez obtenir des informations sur différents aspects de vos données à partir de différents graphiques. Typiquement, l'objectif est de comprendre des facteurs comme :
- La distribution des variables dans votre jeu de données. C'est-à-dire, quelle est la forme de vos données ? La distribution est-elle asymétrique ? En forme de cloche ? Bimodale ?
- Les relations entre les variables.
- Si vos données présentent ou non des valeurs aberrantes ou des points inhabituels qui peuvent indiquer des problèmes de qualité des données ou conduire à des informations intéressantes.
- Si vos données présentent ou non des configurations dans le temps.