Grafico a dispersione

Che cos'è un grafico a dispersione?

Un grafico a dispersione mostra la relazione tra due variabili continue.

Come si usano i grafici a dispersione?

I grafici a dispersione si usano per mostrare relazioni tra dati. Per la correlazione, contribuiscono a mostrare la forza della relazione lineare tra due variabili, mentre per la regressione aggiungono spesso una linea stimata. Nei controlli di qualità, capita spesso che questi grafici presentino dei limiti di specificazione o delle linee di riferimento.

I grafici a dispersione mostrano le relazioni

I grafici a dispersione mostrano il rapporto tra due variabili continue, rappresentando una variabile sull'asse x e l'altra sull'asse y.

Nei grafici a dispersione per la regressione, la variabile di risposta è rappresentata sull'asse y e la variabile di input sull'asse x. 

Esempi di grafici a dispersione

Esempio 1: Relazione crescente

Il grafico a dispersione in Figura 1 mostra una relazione crescente. Sull'asse x è rappresentato il numero di dipendenti di un'azienda, mentre sull'asse y compaiono i profitti aziendali. Il grafico a dispersione consente di vedere che maggiore è il numero dei dipendenti, maggiori sono i profitti. Le aziende con meno impiegati (nella parte sinistra del grafico) hanno profitti minori, mentre le aziende con più dipendenti hanno profitti più alti. Si tratta di un esempio molto semplice, poiché ci sono molte variabili che possono influire sui profitti di un'azienda. 

Figura 1: Grafico a dispersione che mostra una relazione crescente

Esempio 2: Relazione decrescente

Il grafico a dispersione in Figura 2 mostra una relazione decrescente. L'asse delle x riporta i grammi di sodio per un tipo di carne lavorata, mentre sull'asse delle y c'è il costo per chilo di proteina. Il grafico rivela che, all'aumentare del sodio, il costo della proteina diminuisce. Le carni con minori livelli di sodio (sulla sinistra del grafico) hanno un costo per proteina superiore, mentre quelle con maggiori livelli di sodio hanno un costo per proteina inferiore. Il risultato ha perfettamente senso, se si pensa che in genere la carne di minor qualità (e quindi meno costosa) viene trattata con il sale per migliorarne il sapore, aumentandone però il contenuto di sodio. 

Figura 2: Grafico a dispersione che mostra una relazione decrescente tra variabili

Esempio 3: Nessuna relazione

Il grafico a dispersione in Figura 3 non mostra alcuna relazione tra le due variabili. L'asse x rappresenta la dimensione di un carico per il prelavaggio del tessuto denim, l'asse y mostra l'usura misurata del filo. Nel grafico si vede una nuvola casuale di punti. Osservando il lato destro del grafico, si potrebbe pensare che vi sia una leggera diminuzione dell'usura del filo all'aumentare della dimensione del carico. Per verificarlo, si può usare una semplice regressione lineare.

Figura 3: Grafico a dispersione in cui non vi è alcuna relazione tra variabili

Esempio n. 4: Relazione curva

Il grafico a dispersione in Figura 4 mostra una relazione curva tra due variabili. L'asse x riporta il tasso di natalità di un gruppo di paesi, mentre l'asse y quello di mortalità. Nel grafico si nota una relazione decrescente fino a un tasso di natalità compreso tra 25 e 30. Superato questo punto, la relazione diventa crescente. 

Figura 4: Grafico a dispersione che mostra una relazione curva tra variabili, che passa da decrescente a crescente

Esempio 5: Gli outlier nei grafici a dispersione

I grafici a dispersione aiutano a evidenziare gli outlier, cioè i punti insoliti.

La Figura 5 mostra un grafico a dispersione con un outlier, mentre la Figura 6 mostra gli stessi dati senza outlier. La presenza di un singolo outlier nell'angolo in alto a destra influisce notevolmente sulla nostra capacità di visualizzare i dati in un grafico a dispersione. Quando si individua un punto insolito nei dati di un grafico a dispersione, in genere è possibile indagare per individuare le ragioni dell'anomalia, per poi scegliere se mostrare i dati con o senza outlier.

Figura 5: Grafico a dispersione in cui è presente un outlier
Figura 6: Grafico a dispersione in cui non è presente un outlier

Personalizzare i grafici a dispersione

In un grafico a dispersione, colori e indicatori possono essere usati per aggiungere maggiori dettagli su altre variabili, così come le linee di riferimento possono indicare elementi quali i limiti di specifica. 

Utilizzare colori e indicatori

La Figura 7 mostra un grafico a dispersione che mette a confronto il peso e il numero di cavalli di 116 modelli di auto.

Figura 7: Grafico a dispersione che mostra una relazione crescente tra cavalli e peso di un'auto

Dal grafico di base, notiamo una relazione crescente. Le auto più pesanti hanno più cavalli, quelle più leggere ne hanno di meno. 

I paesi di produzione delle auto sono Stati Uniti, Giappone o Altro. I tipi di auto, invece, sono: sportive, compatte, piccole, medie e grandi. Il grafico a dispersione di base può essere migliorato tramite l'uso di colori e indicatori per queste due variabili.

Il grafico a dispersione nella Figura 8 utilizza i colori per distinguere i punti di dati per i tre valori del paese d'origine. 

Figura 8: Lo stesso grafico a dispersione della Figura 7 che mostra la differenza dei valori colorati in base al paese

Non è difficile rendersi conto che le auto con una potenza superiore ai 225 cavalli vengono dal Giappone o dagli Stati Uniti. Tra le automobili con potenza minore non c'è neanche un modello statunitense. 

Volendo, è possibile aggiungere indicatori diversi per i diversi tipi di automobili. 

Figura 9: Lo stesso grafico della Figura 7, ma colorato in base al paese e personalizzato con indicatori per ogni tipo di auto

Come dimostrato da quadrati e cerchi, le auto da 200 cavalli o più sono classificate come auto di medie dimensioni o sportive. I triangoli rivolti verso l'alto indicano che le auto con un numero di cavalli inferiore sono tutte classificate come auto piccole. Il rombo verde in prossimità della parte superiore del grafico mostra che l'auto più pesante di tutte è un'auto di grandi dimensioni prodotta negli Stati Uniti, ma che ha un numero di cavalli nella media.

Considerato un set di dati, è possibile sperimentare diversi modi di applicare colori e indicatori, anche utilizzandoli insieme, per dare maggiore rilievo alle informazioni di un grafico a dispersione. 

Aggiungere linee di riferimento

Inserire linee di riferimento in un grafico a dispersione può essere molto utile. Supponiamo di voler individuare le auto che non riuscirebbero ad attraversare un vecchio ponte di legno che può sostenere un peso di al massimo 4000 libbre (1,8 tonnellate). Nel grafico a dispersione in Figura 10 è stata tracciata una linea di riferimento con un'annotazione che ne spiega il significato.

Figura 10: Lo stesso grafico a dispersione della Figura 9, ma con una linea di riferimento a indicare il limite superiore di 4000 per la variabile del peso

La Figura 11 mostra lo stesso grafico a dispersione con le etichette delle quattro auto che non possono attraversare il vecchio ponte.

Figura 11: Lo stesso grafico a dispersione della Figura 10 con delle etichette in corrispondenza dei quattro punti che non rientrano nel limite superiore di peso

Aggiungere limiti di specifica

Molti scenari prevedono limiti di specifica per le variabili. Utilizzando i dati sulla carne mostrati in Figura 2, il responsabile acquisti di una catena di caffetterie scolastiche deve acquistare carne il cui contenuto di sodio sia idealmente di 450 grammi, con un minimo di 300 e un massimo di 600. La Figura 12 mostra un grafico a dispersione in cui sono introdotti questi limiti di specifica.

Figura 12: Grafico a dispersione con limiti di specifica visibili

Con l'aggiunta di queste linee, ora è facile osservare che ci sono quattro tipi di carne lavorata che non è possibile acquistare per la caffetteria della scuola. Come mostrato in Figura 13, è possibile aggiungere etichette e colori ai punti per fornire dettagli aggiuntivi. Il responsabile acquisti può condividere il grafico per mostrare come mai certe carni non possono essere prese in considerazione.

Figura 13: Lo stesso grafico a dispersione della Figura 12 con l'aggiunta di etichette per i punti che superano i limiti di specifica

matrice del grafico a dispersione

La matrice di un grafico a dispersione è in grado di mostrare la relazione tra più variabili. Una volta riportate nel diagramma tutte le combinazioni a due vie delle variabili, la matrice può mostrare le relazioni tra le variabili al fine di evidenziare quelle che probabilmente sono più importanti. Nei grafici a dispersione multipli, una matrice può inoltre individuare gli outlier.

La Figura 14 mostra la matrice di grafici a dispersione relativi ai dati di diversi modelli di auto. I grafici a dispersione utilizzano gli stessi colori e indicatori delle Figure da 9 a 11. Il primo grafico a dispersione nella colonna all'estrema sinistra mostra la relazione tra Peso e Diametro di sterzata. I triangoli superiore e inferiore della matrice sono tra loro speculari.

Figura 14: Matrice di grafici a dispersione con colori e indicatori personalizzati

La matrice mostra che tutte le combinazioni a due vie delle variabili sono in relazione crescente.

JMP consente di aggiungere ulteriori informazioni alla matrice del grafico a dispersione, tra cui gli istogrammi per ciascuna variabile lungo la diagonale. Si possono anche sostituire i grafici a dispersione nel triangolo superiore con la correlazione di ogni coppia di variabili. La matrice del grafico a dispersione in Figura 15 è un esempio di queste personalizzazioni. La legenda sulla destra presenta una heatmap delle correlazioni e il rosso scuro indica una relazione positiva forte tra le combinazioni a due vie delle variabili. 

Figura 15: Matrice di grafici a dispersione che mostra gli istogrammi e le correlazioni tra variabili

Questa matrice mostra inoltre possibili outlier nell'istogramma della Cilindrata. 

Con JMP è possibile aggiungere alla matrice ancora più informazioni, come ellissi di densità per ciascun grafico a dispersione per osservare gli outlier su più dimensioni. La Figura 16 mostra come, selezionando un outlier in un grafico a dispersione, viene evidenziato in tutti gli altri.

Figura 16: Matrice di grafici a dispersione in cui il grafico a dispersione tra Peso e Diametro di sterzata presenta un outlier selezionato

La matrice di grafici a dispersione in Figura 16 mostra le ellissi di densità in ciascun grafico a dispersione. I cerchi rossi racchiudono circa il 95 % dei dati. È possibile esplorare i punti al di fuori dei cerchi per vedere se si tratta di outlier multivariati. In Figura 16, è stato selezionato il singolo cerchio blu che identifica un outlier all'interno del diagramma a dispersione della relazione tra Peso e Diametro di sterzata. Questo punto rappresenta un outlier anche in altri grafici a dispersione, ma non in tutti. Nel grafico della relazione tra Cilindrata e Cavalli, il punto è evidenziato al centro dell'ellisse di densità.

Deselezionando il punto, tutti i punti avranno la stessa luminosità, come mostrato in Figura 17. La ragione dei possibili outlier che si trovano oltre l'ellisse di densità del grafico a dispersione della relazione tra Cilindrata e Cavalli è osservabile nell'istogramma della Cilindrata. Diversi punti si trovano al di fuori dell'ellisse, sul lato destro del grafico a dispersione. Dai colori è possibile intuire che si riferiscono ad auto prodotte negli Stati Uniti, mentre gli indicatori rivelano che si tratta di auto sportive, medie o grandi. Per migliorare ulteriormente la matrice, si potrebbero usare annotazioni che spieghino i colori e gli indicatori utilizzati. 

Figura 17: Matrice di grafici a dispersione che mostra outlier interessanti nel grafico a dispersione tra Cilindrata e Cavalli

Usa una matrice del grafico a dispersione per esplorare più variabili dei tuoi dati in una sola volta.

Grafici a dispersione e tipi di dati

Dati continui e grafici a dispersione

I grafici a dispersione sono utili per visualizzare i dati continui, perché si tratta di dati misurati su scale con molti valori possibili. Esempi di dati continui:

  • Età
  • Pressione sanguigna
  • Peso
  • Temperatura
  • Velocità

 

Dati categorici o nominali e grafici a barre

I grafici a dispersione non sono una buona idea per la rappresentazione di dati categorici o nominali, perché si tratta di dati misurati su scale con valori specifici. Per questo, conviene usare i grafici a barre.

Nel caso di dati categorici, il campione viene diviso in gruppi e le risposte possono avere un ordine ben definito. Per esempio, in un sondaggio in cui viene chiesto di dare la propria opinione su una scala da “Per niente d'accordo” a “Molto d'accordo” le risposte sono categoriche.

Nel caso di dati nominali, il campione è sempre diviso in gruppi, che però non seguono un ordine particolare. Un esempio di variabile nominale è il paese di residenza. La codifica può essere la sigla del nome del paese oppure un numero, ma in ogni caso si tratta solo di attribuire un nome a gruppi di dati diversi. 

Le variabili categoriche o nominali possono essere usate per personalizzare un grafico a dispersione, assegnando colori o indicatori diversi ai livelli.