JMP® per l'analisi esplorativa dei dati
Quando i dati vengono raccolti da più domini di tipo diverso e in quantità maggiori, potreste trovarvi a esaminarli per la prima volta. L'analisi esplorativa dei dati (Exploratory data analysis, EDA) può aiutarvi a individuare la struttura in tutto questo insieme di dati.
Se necessario, l'analisi EDA può inoltre guidarvi nella costruzione di un modello utile. Anche se avete visto moltissimi dati simili e prevedete che la modellizzazione sia per voi una procedura abituale, il controllo della plausibilità del modello e la verifica delle supposizioni tramite EDA costituiscono comunque una fase preliminare essenziale.
Per sua natura, l'analisi EDA è euristica, a riposta aperta e dinamica. Inoltre, quando vengono tentate visualizzazioni diverse al fine di ottenere una migliore rappresentazione del significato insito nei dati, ciò spesso comporta fasi significative di aggregazione e analisi della qualità dei dati. I grafici interattivi e la gestione dei dati di JMP sono l'ideale per l'EDA. E, anche se disponete di grandi volumi di dati, l'architettura in memoria di JMP rende l'analisi EDA reattiva e divertente da utilizzare, a prescindere da dove possono condurvi i dati.
- Gestione e selezione dei dati
- Grafici interattivi collegati
- Analisi interattiva collegata
La gestione corretta dei casi contraddittori rappresenta una fase importante nell'analisi EDA. Le singole righe presenti in una tabella possono essere selezionate, colorate, contrassegnate, etichettate ed escluse o nascoste direttamente da una qualsiasi rappresentazione grafica in cui vengono visualizzate, e tali modifiche vengono propagate all'istante a tutte le visualizzazioni aperte. È possibile utilizzare pattern di dati mancanti per isolare rapidamente i casi incompleti, mentre il Riepilogo consente di aggregare i dati a livello di dettaglio in una tabella collegata al fine di ottenere visualizzazioni con un livello superiore di granularità. Il Filtro dati può rendere tutte le visualizzazione subordinate alla selezione delle variabili e dei loro livelli e intervalli, man mano che vengono effettuate. Ciò consente di revisionare, definire rapidamente e gestire in modo appropriato tutti i casi che soddisfano la condizione correntemente imposta. I casi possono inoltre essere colorati in base alla variabile utilizzando temi standard o personalizzati.
Pattern di dati mancanti in tre parametri misurati, con visualizzazioni collegate che mostrano l'associazione con covariate e valori.
La percezione è un fattore personale e la natura a risposta aperta dell'EDA consente di sviluppare il proprio stile di analisi. JMP fornisce un ampio repertorio di visualizzazioni, pertanto esistono pochi limiti. I vari strumenti consentono di scorrere, sondare e ingrandire le visualizzazioni secondo necessità. Il Costruttore di grafici è una potente piattaforma innovativa che permette di creare in modo interattivo visualizzazioni a griglia con più variabili di raggruppamento x e y e contenenti segmenti grafici quali grafici a barre, istogrammi, grafici a linee e grafici isometrici. Se la dimensionalità dei dati è elevata, è possibile utilizzare il diagramma parallelo con colorazione e trasparenza per rivelare la struttura quando esistono molti casi. Spesso, tuttavia, una maggiore comprensione dei dati si ottiene utilizzando più visualizzazioni simultaneamente e il collegamento di JMP e il Filtro dati rendono questo tipo di approccio persino più utile.
Utilizzo del Filtro dati per ottenere selezioni condizionate per 'biscuit_category' in due visualizzazioni collegate di dati di vendita colorati per rivenditore.
Con JMP potete affidarvi completamente ai dati. In molti casi potete esaminare attentamente l'analisi esplorativa iniziale direttamente dalla rappresentazione grafica stessa, effettuando scelte informate in base a ciò che effettivamente osservate anziché in base a ciò prevedete. L'output tabulare è di solito aggiunto direttamente alla stessa finestra di report e la visualizzazione è ampliata da una rappresentazione visiva dei risultati dell'analisi (come ad esempio una linea di regressione con intervalli di confidenza). Inoltre, con l'impostazione delle opzioni corrette, potete fare in modo che i risultati dell'analisi rispondano all'istante alle selezioni effettuate nel Filtro dati.
Dati relativi alle denunce di danni per l'assicurazione RC auto ordinati per età e colorati per sesso; report esplorativo iniziale, a cui poi è stato aggiunto l'output ottenuto dall'approccio analitico scelto.