Analisi esplorativa dei dati
Che cos'è l'analisi esplorativa dei dati?
L'analisi esplorativa dei dati (EDA) prevede l'uso di grafici e visualizzazioni per lo studio e l'analisi di set di dati. Si usa per esplorare, analizzare e apprendere dai dati, non per confermare ipotesi statistiche.
Quando si utilizza?
L'analisi esplorativa dei dati è uno strumento potente per studiare un set di dati. Anche quando l'obiettivo è eseguire analisi pianificate, l'EDA può essere usata per pulire i dati, analizzare i sottogruppi o semplicemente per capire meglio i dati. Il primo passo importante per analizzare i dati è inserirli in un diagramma.
Definizione di analisi esplorativa dei dati
Il processo che prevede l'utilizzo di riepiloghi numerici e visualizzazioni per studiare i dati e identificare potenziali relazioni tra le variabili è denominato analisi esplorativa dei dati, o EDA.
Si tratta di un processo investigativo che si avvale del riepilogo statistico e di strumenti grafici per studiare i dati e capire che cosa si può trarne.
L'EDA consente di rilevare anomalie nei dati, come outlier od osservazioni insolite, identificare pattern, capire le potenziali relazioni tra le variabili e formulare domande o ipotesi interessanti che possono essere verificate in seguito usando metodi statistici più formali.
L'analisi esplorativa dei dati è simile a un'attività di indagine: si cercano indizi e informazioni che possano portare all'identificazione delle cause principali del problema che si vuole risolvere. Inizialmente si studia una sola variabile alla volta, poi se ne studiano due e infine molte contemporaneamente.
Nonostante l'EDA preveda tabelle di riepilogo statistico relative alla media e alla deviazione standard, la maggior parte delle persone si concentra sui grafici. Per giungere a una conclusione sui dati, si usano una serie di grafici e strumenti esplorativi. Se poi i grafici o le analisi non sono esplicative, si osservano i dati da un'altra prospettiva.
Dal momento che l'EDA prevede una fase di esplorazione, è iterativa. Si possono individuare numerosi aspetti relativi ai dati usando grafici diversi. Alcuni obiettivi tipici sono rappresentati dal capire:
- La distribuzione delle variabili in un set di dati. Qual è la forma dei dati? La distribuzione è asimmetrica? Ha la tipica forma a campana? È bimodale?
- Le relazioni tra variabili.
- Se i dati presentano degli outlier o dei punti insoliti che potrebbero indicare problemi di qualità dei dati o portare ad approfondimenti interessanti.
- Se i dati presentano dei pattern nel tempo.