Explorative Datenanalyse
Was ist explorative Datenanalyse?
Bei der explorativen Datenanalyse (EDA) werden Grafiken und Visualisierungen eingesetzt, um einen Datensatz zu untersuchen und zu analysieren. Das Ziel besteht darin, zu Nachforschungen und Untersuchungen anzustellen sowie Lernerfahrungen zu machen – nicht darin, statistische Hypothesen zu bestätigen.
Wann setze ich die Methode ein?
Die explorative Datenanalyse ist eine äußerst wirksame Methode zur Untersuchung eines Datensatzes. Selbst, wenn Ihr Ziel die Durchführung geplanter Analysen ist, können Sie die EDA nutzen, um Daten zu bereinigen, Untergruppen zu analysieren oder einfach um Ihre Daten besser zu verstehen. Ein wichtiger erster Schritt bei jeder Datenanalyse ist die Darstellung der Daten in Form eines Diagramms.
Explorative Datenanalyse erklärt
Das Verfahren, bei dem Zusammenfassungen und Visualisierungen von Zahlen genutzt werden, um Ihre Daten zu untersuchen und potenzielle Zusammenhänge zwischen Variablen aufzudecken, wird explorative Datenanalyse (EDA) genannt.
Die explorative Datenanalyse ist eine Untersuchungsmethode, bei der Sie mithilfe von zusammengefassten statistischen Kenngrößen und grafischen Tools mehr über Ihre Daten in Erfahrung bringen und ermitteln, was Sie aus ihnen lernen können.
Anhand einer EDA können Sie Unstimmigkeiten in Ihren Daten wie Ausreißer oder ungewöhnliche Beobachtungen ausmachen, Muster entdecken, potenzielle Zusammenhänge zwischen Variablen nachvollziehen und interessante Fragen oder Hypothesen entwickeln, die Sie später mithilfe von formelleren statistischen Methoden testen können.
Explorative Datenanalyse zu betreiben, ist ein bisschen wie Detektivarbeit: Sie suchen nach Hinweisen und Erkenntnissen, die zur Entdeckung potenzieller Grundursachen des Problems führen können, das Sie lösen möchten. Sie untersuchen eine Variable nach der anderen, dann zwei Variablen gleichzeitig und schließlich viele Variablen auf einmal.
Obwohl die EDA Tabellen mit zusammengefassten statistischen Kenngrößen wie Mittelwert und Standardabweichung umfasst, konzentrieren sich die meisten Menschen auf Graphen.Sie verwenden verschiedene Graphen und Untersuchungswerkzeuge und gehen dorthin, wohin Ihre Daten Sie führen. Wenn ein Graph oder eine Analyse keine Informationen liefert, betrachten Sie die Daten aus einer anderen Perspektive.
Da es sich bei EDA um ein Untersuchungsverfahren handelt, ist es iterativ. Sie erfahren aus verschiedenen Graphen wahrscheinlich verschiedene Aspekte über Ihre Daten. Typische Ziele sind zum Beispiel:
- Die Verteilung der Variablen in Ihrem Datensatz verstehen. Welche Form haben Ihre Daten? Ist die Verteilung schief? Hügelförmig? Bimodal?
- Die Zusammenhänge zwischen Variablen verstehen.
- Erfahren, ob Ihre Daten Ausreißer oder ungewöhnliche Punkte aufweisen, die auf Probleme mit der Datenqualität hinweisen oder zu interessanten Erkenntnissen führen können.
- Erfahren, ob Ihre Daten Muster im Zeitverlauf aufweisen.