La piattaforma Distribuzione illustra la distribuzione di una singola variabile (analisi univariata) utilizzando istogrammi, ulteriori grafici e report. La parola univariata significa semplicemente che è coinvolta un'unica variabile invece di due (bivariata) o più variabili (multivariata). Tuttavia, si può esaminare la distribuzione di numerose singole variabili all'interno di un unico report. Il contenuto del report di ciascuna variabile varia in funzione del fatto che la variabile sia categorica (nominale o ordinale) o continua.
• Per le variabili categoriche, il grafico iniziale è un istogramma. L'istogramma mostra una barra per ciascun livello della variabile ordinale o nominale. I report mostrano conteggi e proporzioni.
• Per le variabili continue, i grafici iniziali presentano un istogramma e un box plot degli outlier. L'istogramma mostra una barra per i valori raggruppati della variabile continua. I report mostrano quantili selezionati e statistiche di riepilogo.
Quando si conosce la distribuzione dei dati è possibile programmare il corretto tipo di analisi successiva.
Nota: Per ulteriori informazioni sulla piattaforma Distribuzione, consultare Basic Analysis.
Si desidera visualizzare i valori nutritivi dei cereali per poter mangiare in modo più sano. L'analisi della distribuzione dei dati sui cereali rivela le risposte alle seguenti domande:
• Quali cereali hanno il contenuto più elevato di fibre?
• Qual è il numero medio, minimo e massimo di calorie?
• Qual è la quantità media di grassi?
• Quali cereali contengono più grassi?
• Sono presenti outlier nei dati?
1. Selezionare Guida > Cartella dati di esempio e aprire Cereal.jmp.
2. Selezionare Analizza > Distribuzione.
3. Premere Ctrl e fare clic su Manufacturer, Calories, Fat e Fiber.
4. Fare clic su Y, Colonne e quindi su OK.
Figura 6.2 Distribuzioni per produttore, calorie, grassi e fibre
Nella distribuzione delle fibre si noti quanto segue:
– Fiber One e All-Bran with Extra Fiber contengono la quantità maggiore di fibre come illustrato dal rispettivo box plot. Questi cereali sono outlier in termini di contenuto di fibre.
La riga che contiene Fiber One in Cereal.jmp viene etichettata. Questa etichetta mostra il nome del cereale accanto a un punto di dati nei grafici. Per vedere l'intera etichetta, trascinare a destra il bordo verticale destro. Passare il mouse sul punto dei dati senza etichetta per vedere “All Bran with Extra Fiber”.
Nella distribuzione dei grassi si noti quanto segue:
– Passare il mouse sul punto dei dati in alto (il contrassegno x) nel box plot dei grassi per vedere 100% Nat. Bran Oats & Honey è il cereale con il maggior contenuto di grassi.
– Nel report dei quantili dei grassi, la quantità mediana di grassi è 1 grammo.
Nel report dei quantili delle calorie, si noti quanto segue:
– Il numero massimo di calorie è 250.
– Il numero minimo di calorie è 50.
5. Nell'istogramma dei produttori, fare clic sulla barra di Nabisco.
Figura 6.3 Distribuzioni per Nabisco Cereals
Le distribuzioni di calorie, grassi e fibre di Nabisco Cereals sono evidenziate negli altri istogrammi. È possibile visualizzare le distribuzioni di calorie, grassi e fibre per i cereali Nabisco rispetto alle distribuzioni di calorie, grassi e fibre per i dati complessivi. Per esempio, la distribuzione di grassi di Nabisco Cereals sembra essere inferiore alla distribuzione di grassi dei dati complessivi.
6. Fare clic sopra la prima barra delle fibre per deselezionare tutte le barre.
7. Premere Maiusc e fare clic su tutte le barre nell'istogramma delle fibre con un valore superiore a 8.
Figura 6.4 Cereali ad alto contenuto di fibre
I cereali con il contenuto più elevato di fibre sono evidenziati negli istogrammi delle calorie e dei grassi. Poiché gli istogrammi sono collegati, si noti che alcuni cereali con il contenuto più elevato di fibre hanno anche un basso contenuto di grassi.
8. Premere Ctrl e Maiusc e deselezionare le due barre dell'istogramma relative alle calorie con quantità pari a o quasi 200.
I cereali con calorie più elevate vengono eliminati dagli istogrammi.
Figura 6.5 Cereali con alto contenuto di fibre e calorie ridotte
Suggerimento: lasciare aperto il report Distribuzioni. Lo si utilizzerà più avanti nell'analisi dei cluster. Vedere Analisi dei valori simili nella piattaforma Clusterizzazione.
Guardando i risultati è possibile rispondere alle seguenti domande:
Quali cereali hanno il contenuto più elevato di fibre?
Il box plot delle fibre mostra che All-Bran with Extra Fiber e Fiber One contengono la quantità di fibre più elevata. Questi due cereali sono outlier.
Qual è il numero medio, minimo e massimo di calorie?
L'istogramma relativo alle calorie mostra che il numero di calorie varia da 50 a 275. I quantili delle calorie mostrano che il numero di calorie varia da 50 a 250 e il numero mediano di calorie è 120. La distribuzione non è uniforme.
Qual è la quantità media di grassi?
Il report dei quantili relativo ai grassi mostra che la quantità mediana di grassi è 1 grammo.
Quali cereali contengono più grassi?
Il box plot dei grassi mostra che 100% Nat. Bran Oats & Honey è il cereale con il maggior contenuto di grassi. Questo cereale è un outlier.
Per incrementare la quantità di fibre nella dieta è meglio provare All-Bran with Extra Fiber e Fiber One. Questi cereali hanno meno calorie e meno grassi. La maggior parte dei cereali non aumenta di molto la quantità di grassi della dieta, ma è meglio evitare l'elevata quantità di grassi di 100% Nat. Bran Oats & Honey. Sebbene la maggior parte dei cereali presenti un quantitativo ridotto di grassi, essi non hanno necessariamente anche un numero ridotto di calorie.