Il quadro generale > Esempio di esplorazione dei dati su piattaforme multiple > Analisi dei pattern e delle relazioni nella piattaforma Multivariato
Data di pubblicazione: 04/15/2024

Analisi dei pattern e delle relazioni nella piattaforma Multivariato

Nell'esempio dei cereali, si è individuato quali cereali mangiare o evitare nell'ambito di una dieta sana. Ora si vuole vedere come si correlano tra loro le variabili dei cereali. La piattaforma Multivariata consente di osservare i pattern e le relazioni tra le variabili. Dal report Multivariato è possibile procedere come segue:

sommarizzare la forza delle relazioni lineari tra ogni coppia di variabili di risposta utilizzando la tabella Correlazioni

identificare le dipendenze, gli outlier e i cluster utilizzando la matrice grafico a dispersione

usare altre tecniche per esaminare le variabili multiple quali correlazioni parziali, inverse e appaiate, matrici di covarianza e componenti principali

Nota: Per ulteriori informazioni sulla piattaforma Multivariato, consultare Multivariate Methods.

Scenario

Si desidera visualizzare le relazioni tra variabili quali grassi e calorie. L'analisi dei dati sui cereali nella piattaforma Multivariato rivela le risposte alle seguenti domande:

Quali coppie di variabili sono altamente correlate?

Quali coppie di variabili non sono correlate?

Creazione del report Multivariato

1. Nella tabella di dati Cereal.jmp fare clic sul triangolo in basso nella parte superiore del riquadro Colonne per deselezionare le righe.

Figura 6.6 Deselezione di righe 

Deselecting Rows

2. Selezionare Analizza > Metodi di analisi multivariata > Multivariato.

3. Selezionare da Calories a Potassium, fare clic su Y, Colonne e quindi su OK.

Viene visualizzato il report Multivariato. Il report contiene per impostazione predefinita il report delle correlazioni e la matrice grafico a dispersione. Il report Correlazioni è una matrice dei coefficienti di correlazione che sommarizza la forza delle relazioni lineari tra ogni coppia di variabili di risposta (Y). I numeri evidenziati indicano un grado minore di correlazione.

Figura 6.7 Report Correlazioni 

Correlations Report

Si noti quanto segue:

Nella colonna Calories, il numero di calorie è strettamente correlato con tutte le variabili a eccezione di sodio e fibre.

Nella colonna Fiber, fibre e potassio sembrano essere strettamente correlati.

Nella colonna Sodium, il sodio non è strettamente correlato con le altre variabili.

Le ellissi di densità nella matrice grafico a dispersione illustrano ulteriormente le relazioni tra variabili.

4. Dal triangolo rosso associato alla matrice grafico a dispersione, selezionare Ellissi di densità. Verrà visualizzata un'ellissi di densità normale bivariata al 95% in ogni grafico a dispersione.

Figura 6.8 Parte della matrice grafico a dispersione 

Portion of the Scatterplot Matrix

Ipotizzando che ogni coppia di variabili abbia una distribuzione bivariata normale, l'ellissi di densità racchiude circa il 95% dei punti. Se l'ellissi è abbastanza rotonda e non orientata diagonalmente, le variabili non sono correlate. Se l'ellissi è stretta e orientata diagonalmente, le variabili sono correlate.

Si noti quanto segue:

Le ellissi sono abbastanza rotonde nella riga Sodium. Questa forma indica che il sodio non è correlato con altre variabili.

I contrassegni x blu, che rappresentano Nat. Bran Oats & Honey, Cracklin’ Oat Bran e Banana Nut Crunch, compaiono al di fuori dell'ellissi nella riga Fat. Questa posizione indica che il dato è un outlier (a causa della quantità di grassi nei cereali).

Si esplorerà la matrice grafico a dispersione in seguito.

5. Fare clic sul triangolo rosso associato a Multivariate e selezionare Correlazioni appaiate per mostrare il report Correlazioni appaiate.

Figura 6.9 Parte del report Correlazioni appaiate 

Portion of the Pairwise Correlations Report

Il report Correlazioni appaiate elenca le correlazioni prodotto-momento di Pearson per ciascuna coppia di variabili Y. Il report mostra inoltre le probabilità di significatività e confronta le correlazioni in un grafico a barre.

6. Per visualizzare rapidamente quali coppie sono strettamente correlate, fare clic sul report con il pulsante destro del mouse e selezionare la casella Ordina per colonna, Prob signif, Crescente e fare clic su OK.

Le coppie più strettamente correlate compaiono nella parte superiore del report. I p-value ridotti per le coppie indicano evidenza di correlazione. La correlazione più significativa è tra Tot Carbo (carboidrati totali) e Calorie.

Figura 6.10 P-value piccoli per le coppie 

Small p-values for Pairs

Interpretazione dei risultati

Guardando i risultati è possibile rispondere alle seguenti domande:

Quali coppie di variabili sono altamente correlate?

Il report Correlazioni e la matrice grafico di dispersione mostrano che il numero di calorie è strettamente correlato con tutte le variabili ad eccezione di sodio e fibre. Il report Correlazioni appaiate mostra che Tot Carbo (carboidrati totali) e Calories sono la coppia di variabili più correlata.

Quali coppie di variabili non sono correlate?

Il report Correlazioni e la matrice grafico di dispersione mostrano che il sodio non è correlato con le altre variabili.

Conclusioni

È possibile confermare la decisione precedente di evitare l'elevato contenuto di grassi di 100% Nat. Bran Oats & Honey. Provare All-Bran with Extra Fiber e Fiber One è stata inoltre una decisione saggia. Questi due cereali ad alto contenuto di fibre posseggono il vantaggio aggiunto di apportare un numero ridotto di calorie, grassi e zuccheri e una quantità più elevata di potassio. Si può anche decidere di evitare i cereali a elevato contenuto di carboidrati perché probabilmente contengono un elevato numero di calorie.

Vuoi maggiori informazioni? Hai domande? Ottieni risposte nella community di utenti JMP (community.jmp.com).