Grafico a dispersione
Che cos'è un grafico a dispersione?
Un grafico a dispersione mostra la relazione tra due variabili continue.
Come si usano i grafici a dispersione?
I grafici a dispersione si usano per mostrare relazioni tra dati. Per la correlazione, contribuiscono a mostrare la forza della relazione lineare tra due variabili, mentre per la regressione aggiungono spesso una linea stimata. Nei controlli di qualità, capita spesso che questi grafici presentino dei limiti di specificazione o delle linee di riferimento.
I grafici a dispersione mostrano le relazioni
I grafici a dispersione mostrano il rapporto tra due variabili continue, rappresentando una variabile sull'asse x e l'altra sull'asse y.
Nei grafici a dispersione per la regressione, la variabile di risposta è rappresentata sull'asse y e la variabile di input sull'asse x.
Esempi di grafici a dispersione
Esempio 1: Relazione crescente
Il grafico a dispersione in Figura 1 mostra una relazione crescente. Sull'asse x è rappresentato il numero di dipendenti di un'azienda, mentre sull'asse y compaiono i profitti aziendali. Il grafico a dispersione consente di vedere che maggiore è il numero dei dipendenti, maggiori sono i profitti. Le aziende con meno impiegati (nella parte sinistra del grafico) hanno profitti minori, mentre le aziende con più dipendenti hanno profitti più alti. Si tratta di un esempio molto semplice, poiché ci sono molte variabili che possono influire sui profitti di un'azienda.
Esempio 2: Relazione decrescente
Il grafico a dispersione in Figura 2 mostra una relazione decrescente. L'asse delle x riporta i grammi di sodio per un tipo di carne lavorata, mentre sull'asse delle y c'è il costo per chilo di proteina. Il grafico rivela che, all'aumentare del sodio, il costo della proteina diminuisce. Le carni con minori livelli di sodio (sulla sinistra del grafico) hanno un costo per proteina superiore, mentre quelle con maggiori livelli di sodio hanno un costo per proteina inferiore. Il risultato ha perfettamente senso, se si pensa che in genere la carne di minor qualità (e quindi meno costosa) viene trattata con il sale per migliorarne il sapore, aumentandone però il contenuto di sodio.
Esempio 3: Nessuna relazione
Il grafico a dispersione in Figura 3 non mostra alcuna relazione tra le due variabili. L'asse x rappresenta la dimensione di un carico per il prelavaggio del tessuto denim, l'asse y mostra l'usura misurata del filo. Nel grafico si vede una nuvola casuale di punti. Osservando il lato destro del grafico, si potrebbe pensare che vi sia una leggera diminuzione dell'usura del filo all'aumentare della dimensione del carico. Per verificarlo, si può usare una semplice regressione lineare.
Esempio n. 4: Relazione curva
Il grafico a dispersione in Figura 4 mostra una relazione curva tra due variabili. L'asse x riporta il tasso di natalità di un gruppo di paesi, mentre l'asse y quello di mortalità. Nel grafico si nota una relazione decrescente fino a un tasso di natalità compreso tra 25 e 30. Superato questo punto, la relazione diventa crescente.
Esempio 5: Gli outlier nei grafici a dispersione
I grafici a dispersione aiutano a evidenziare gli outlier, cioè i punti insoliti.
La Figura 5 mostra un grafico a dispersione con un outlier, mentre la Figura 6 mostra gli stessi dati senza outlier. La presenza di un singolo outlier nell'angolo in alto a destra influisce notevolmente sulla nostra capacità di visualizzare i dati in un grafico a dispersione. Quando si individua un punto insolito nei dati di un grafico a dispersione, in genere è possibile indagare per individuare le ragioni dell'anomalia, per poi scegliere se mostrare i dati con o senza outlier.
Personalizzare i grafici a dispersione
In un grafico a dispersione, colori e indicatori possono essere usati per aggiungere maggiori dettagli su altre variabili, così come le linee di riferimento possono indicare elementi quali i limiti di specifica.
Utilizzare colori e indicatori
La Figura 7 mostra un grafico a dispersione che mette a confronto il peso e il numero di cavalli di 116 modelli di auto.
Dal grafico di base, notiamo una relazione crescente. Le auto più pesanti hanno più cavalli, quelle più leggere ne hanno di meno.
I paesi di produzione delle auto sono Stati Uniti, Giappone o Altro. I tipi di auto, invece, sono: sportive, compatte, piccole, medie e grandi. Il grafico a dispersione di base può essere migliorato tramite l'uso di colori e indicatori per queste due variabili.
Il grafico a dispersione nella Figura 8 utilizza i colori per distinguere i punti di dati per i tre valori del paese d'origine.
Non è difficile rendersi conto che le auto con una potenza superiore ai 225 cavalli vengono dal Giappone o dagli Stati Uniti. Tra le automobili con potenza minore non c'è neanche un modello statunitense.
Volendo, è possibile aggiungere indicatori diversi per i diversi tipi di automobili.
Come dimostrato da quadrati e cerchi, le auto da 200 cavalli o più sono classificate come auto di medie dimensioni o sportive. I triangoli rivolti verso l'alto indicano che le auto con un numero di cavalli inferiore sono tutte classificate come auto piccole. Il rombo verde in prossimità della parte superiore del grafico mostra che l'auto più pesante di tutte è un'auto di grandi dimensioni prodotta negli Stati Uniti, ma che ha un numero di cavalli nella media.
Considerato un set di dati, è possibile sperimentare diversi modi di applicare colori e indicatori, anche utilizzandoli insieme, per dare maggiore rilievo alle informazioni di un grafico a dispersione.
Aggiungere linee di riferimento
Inserire linee di riferimento in un grafico a dispersione può essere molto utile. Supponiamo di voler individuare le auto che non riuscirebbero ad attraversare un vecchio ponte di legno che può sostenere un peso di al massimo 4000 libbre (1,8 tonnellate). Nel grafico a dispersione in Figura 10 è stata tracciata una linea di riferimento con un'annotazione che ne spiega il significato.
La Figura 11 mostra lo stesso grafico a dispersione con le etichette delle quattro auto che non possono attraversare il vecchio ponte.
Aggiungere limiti di specifica
Molti scenari prevedono limiti di specifica per le variabili. Utilizzando i dati sulla carne mostrati in Figura 2, il responsabile acquisti di una catena di caffetterie scolastiche deve acquistare carne il cui contenuto di sodio sia idealmente di 450 grammi, con un minimo di 300 e un massimo di 600. La Figura 12 mostra un grafico a dispersione in cui sono introdotti questi limiti di specifica.
Con l'aggiunta di queste linee, ora è facile osservare che ci sono quattro tipi di carne lavorata che non è possibile acquistare per la caffetteria della scuola. Come mostrato in Figura 13, è possibile aggiungere etichette e colori ai punti per fornire dettagli aggiuntivi. Il responsabile acquisti può condividere il grafico per mostrare come mai certe carni non possono essere prese in considerazione.
matrice del grafico a dispersione
La matrice di un grafico a dispersione è in grado di mostrare la relazione tra più variabili. Una volta riportate nel diagramma tutte le combinazioni a due vie delle variabili, la matrice può mostrare le relazioni tra le variabili al fine di evidenziare quelle che probabilmente sono più importanti. Nei grafici a dispersione multipli, una matrice può inoltre individuare gli outlier.
La Figura 14 mostra la matrice di grafici a dispersione relativi ai dati di diversi modelli di auto. I grafici a dispersione utilizzano gli stessi colori e indicatori delle Figure da 9 a 11. Il primo grafico a dispersione nella colonna all'estrema sinistra mostra la relazione tra Peso e Diametro di sterzata. I triangoli superiore e inferiore della matrice sono tra loro speculari.
La matrice mostra che tutte le combinazioni a due vie delle variabili sono in relazione crescente.
JMP consente di aggiungere ulteriori informazioni alla matrice del grafico a dispersione, tra cui gli istogrammi per ciascuna variabile lungo la diagonale. Si possono anche sostituire i grafici a dispersione nel triangolo superiore con la correlazione di ogni coppia di variabili. La matrice del grafico a dispersione in Figura 15 è un esempio di queste personalizzazioni. La legenda sulla destra presenta una heatmap delle correlazioni e il rosso scuro indica una relazione positiva forte tra le combinazioni a due vie delle variabili.
Questa matrice mostra inoltre possibili outlier nell'istogramma della Cilindrata.
Con JMP è possibile aggiungere alla matrice ancora più informazioni, come ellissi di densità per ciascun grafico a dispersione per osservare gli outlier su più dimensioni. La Figura 16 mostra come, selezionando un outlier in un grafico a dispersione, viene evidenziato in tutti gli altri.
La matrice di grafici a dispersione in Figura 16 mostra le ellissi di densità in ciascun grafico a dispersione. I cerchi rossi racchiudono circa il 95 % dei dati. È possibile esplorare i punti al di fuori dei cerchi per vedere se si tratta di outlier multivariati. In Figura 16, è stato selezionato il singolo cerchio blu che identifica un outlier all'interno del diagramma a dispersione della relazione tra Peso e Diametro di sterzata. Questo punto rappresenta un outlier anche in altri grafici a dispersione, ma non in tutti. Nel grafico della relazione tra Cilindrata e Cavalli, il punto è evidenziato al centro dell'ellisse di densità.
Deselezionando il punto, tutti i punti avranno la stessa luminosità, come mostrato in Figura 17. La ragione dei possibili outlier che si trovano oltre l'ellisse di densità del grafico a dispersione della relazione tra Cilindrata e Cavalli è osservabile nell'istogramma della Cilindrata. Diversi punti si trovano al di fuori dell'ellisse, sul lato destro del grafico a dispersione. Dai colori è possibile intuire che si riferiscono ad auto prodotte negli Stati Uniti, mentre gli indicatori rivelano che si tratta di auto sportive, medie o grandi. Per migliorare ulteriormente la matrice, si potrebbero usare annotazioni che spieghino i colori e gli indicatori utilizzati.
Usa una matrice del grafico a dispersione per esplorare più variabili dei tuoi dati in una sola volta.
Grafici a dispersione e tipi di dati
Dati continui e grafici a dispersione
I grafici a dispersione sono utili per visualizzare i dati continui, perché si tratta di dati misurati su scale con molti valori possibili. Esempi di dati continui:
- Età
- Pressione sanguigna
- Peso
- Temperatura
- Velocità
Dati categorici o nominali e grafici a barre
I grafici a dispersione non sono una buona idea per la rappresentazione di dati categorici o nominali, perché si tratta di dati misurati su scale con valori specifici. Per questo, conviene usare i grafici a barre.
Nel caso di dati categorici, il campione viene diviso in gruppi e le risposte possono avere un ordine ben definito. Per esempio, in un sondaggio in cui viene chiesto di dare la propria opinione su una scala da “Per niente d'accordo” a “Molto d'accordo” le risposte sono categoriche.
Nel caso di dati nominali, il campione è sempre diviso in gruppi, che però non seguono un ordine particolare. Un esempio di variabile nominale è il paese di residenza. La codifica può essere la sigla del nome del paese oppure un numero, ma in ogni caso si tratta solo di attribuire un nome a gruppi di dati diversi.
Le variabili categoriche o nominali possono essere usate per personalizzare un grafico a dispersione, assegnando colori o indicatori diversi ai livelli.