Analisi dei dati > L'importanza di rappresentare graficamente i dati
Data di pubblicazione: 04/15/2024

L'importanza di rappresentare graficamente i dati

La rappresentazione grafica, o visualizzazione, dei dati è importante per qualsiasi analisi dei dati e dovrebbe avvenire sempre prima di utilizzare test statistici o creare modelli. Per dimostrare per quale motivo la visualizzazione dei dati debba essere uno dei primi passi nel processo di analisi dei dati, è bene considerare il seguente esempio:

1. Selezionare Guida > Cartella dati di esempio e aprire Anscombe.jmp (F. J. Anscombe (1973), American Statistician, 27, 17-21).

Questi dati sono costituiti da quattro coppie di variabili X e Y.

2. Nel riquadro Tabella, fare clic sul triangolo verde accanto allo script The Quartet.

Lo script crea una semplice regressione lineare su ciascuna coppia di variabili utilizzando Stima Y rispetto a X. L'opzione Mostra punti è disattivata, quindi i dati non possono essere visualizzati sui grafici a dispersione. La Figura 5.2 mostra la stima del modello e altre informazioni di riepilogo per ciascuna regressione.

Figura 5.2 Quattro modelli 

Four Models

Osservare che tutti e quattro i modelli e i valori R-quadro sono pressoché identici. Il modello stimato in ciascun caso è fondamentalmente Y = 3 + 0.5X mentre il valore R-quadro in ciascun caso è fondamentalmente 0.66. Se l'analisi dei dati tenesse conto soltanto delle suddette informazioni di riepilogo, si concluderebbe probabilmente che la relazione fra X e Y è uguale in ciascun caso. Tuttavia, a questo punto, i dati non sono stati visualizzati. La conclusione potrebbe essere errata.

Per visualizzare i dati, aggiungere i punti a tutti e quattro i grafici a dispersione

1. Premere Ctrl.

2. Fare clic sul triangolo rosso accanto a una delle stime bivariate e selezionare Mostra punti.

Figura 5.3 Grafici a dispersione con punti aggiunti 

Scatterplots with Points Added

I grafici a dispersione mostrano che la relazione fra X e Y non è uguale per le quattro coppie, sebbene le linee che descrivono le relazioni siano uguali:

Il grafico 1 rappresenta una relazione lineare.

Il grafico 2 rappresenta una relazione non lineare.

Il grafico 3 rappresenta una relazione lineare, eccetto per un outlier.

Il grafico 4 ha tutti i dati in x = 8, eccetto per un punto.

Questo esempio illustra che le conclusioni basate unicamente su statistiche possono essere inadeguate. Un'esplorazione visiva dei dati dovrebbe rappresentare la fase iniziale di qualsiasi analisi dei dati.

Vuoi maggiori informazioni? Hai domande? Ottieni risposte nella community di utenti JMP (community.jmp.com).