Analisi statistica, modelli predittivi e data mining con JMP®

La statistica consiste nel raccogliere, descrivere e analizzare dati per quantificare le variazioni e svelare relazioni utili. Essa permette di risolvere problemi, rivelare opportunità e prendere decisioni consapevoli malgrado le incertezze. Attraverso l'efficace applicazione dell'analisi statistica è possibile ottenere informazioni, previsioni e mezzi per promuovere l'apprendimento e miglioramenti su base costante, in qualsiasi contesto.

Indipendentemente dagli obiettivi della vostra attività, ad esempio descrizione, illustrazione o previsione, apprezzerete in modo particolare il paradigma di esplorazione grafica statistica di JMP, che sfrutta la sinergia intrinseca tra visualizzazione e modellizzazione. Ideale per qualsiasi formato e dimensione (a condizione che vi sia spazio sufficiente nella memoria) e per utenti con qualsiasi livello di esperienza nell'ambito dell'analisi statistica, JMP permette di ottenere il massimo dai dati a disposizione.

JMP offre funzioni complete per la regressione lineare o non lineare univariata, gli utilissimi approcci multivariati per l'esplorazione, la riduzione della dimensionalità e la modellizzazione, nonché per l'analisi di serie storiche e di dati categorici. Oltre a presentare le tecniche e i risultati in modo facilmente fruibile e senza compromettere l'efficacia degli algoritmi sottostanti, JMP e JMP Pro sono pensati per soddisfare le esigenze statistiche della maggior parte degli utenti e della maggior parte delle applicazioni. JMP Pro, la versione per analisi avanzate di JMP, include una serie completa di sofisticati algoritmi per ottimizzare la costruzione di modelli con i dati a disposizione. Lo strumento permette di trattenere i dati con coerenza, così da costruire modelli di previsione facilmente generalizzabili.

JMP non si limita a costruire modelli precisi in breve tempo, consente anche di mettere a confronto e in contrapposizione modelli basati su approcci diversi, calcolando la media dei risultati e generando codici di scoring per i nuovi casi. Durante il processo è possibile identificare le variabili principali e ottimizzare i risultati con o senza disturbo negli input.

Tramite report e profiler visivi e interattivi, JMP aiuta a comunicare risultati semplici o complessi anche a destinatari che non hanno familiarità con i metodi statistici, ma che necessitano di comprendere e agire sulla base di tali risultati.

Regressione

Regressioni con JMP

Ricerca di associazioni tra riduzione del colesterolo (modellizzazione continua), entrambi i sessi (modellizzazione nominale) ed età (modellizzazione ordinale) utilizzando la piattaforma Stima Y rispetto a X

La classe di modelli di regressione lineare è disparata e onnipresente. JMP mette questi efficaci metodi nelle mani di professionisti con qualsiasi livello di esperienza, in un formato facilmente fruibile.

Utilizzando la piattaforma Stima Y rispetto a X è possibile testare e modellizzare le dipendenze tra un singolo input e una risposta. JMP unisce ciò che tradizionalmente è considerato un insieme disparato di approcci statistici trasformandolo in un insieme coerente e accessibile, fornendo inoltre un risultato grafico che semplifica ulteriormente la comprensibilità dei risultati.

La piattaforma Stima modello offre un ambiente unificato per la stima di modelli lineari semplici o complessi con effetti specificati fissi e casuali e termini di errore definiti.

Indipendentemente dall'approccio preferito per la costruzione dei modelli, JMP fornisce una serie completa di metodi manuali e automatici, con strumenti diagnostici appropriati, per consentire la costruzione rapida della maggior parte delle tipologie di modelli lineari. Alcune opzioni di stima specifica permettono di focalizzare l'attenzione nel punto giusto. JMP Pro amplia il repertorio con l'aggiunta dei modelli misti (per gestire adeguatamente le misure ripetute) e della regressione generalizzata (con tecniche di regressione regolarizzata o con penalizzazione, quali la Rete elastica, che aiutano a identificare le X che potrebbero celare un potenziale esplicativo). Un approccio basato sui "valori mancanti esplicativi" fa sì che le informazioni contenute in tutte le righe contribuiscano all'analisi.

JMP permette di confrontare i modelli concorrenti in modo semplice. Le risposte multiple vengono gestite in modo integrato e il profiler facilita il confronto e la contrapposizione dell'interpretabilità e i risultati di varie stime. Il profiler permette inoltre di individuare le impostazioni per ottimizzare le Y, mentre le simulazioni Monte Carlo aiutano a valutare le dinamiche di trasmissione della variazione dalle X alle Y.

La piattaforma Non lineare permette di modellizzare le relazioni non lineari. I modelli non lineari utilizzano i minimi quadrati standard o una funzione di perdita personalizzata. JMP fornisce una libreria contenente i tipi di modelli non lineari necessari per test biologici e studi farmacocinetici, senza bisogno di immettere i valori iniziali o le formule ausiliarie. Le variabili di raggruppamento sono supportate ed è possibile isolare in modo rapido e semplice eventuali effetti dell'oggetto tramite visualizzazioni grafiche. La funzione di perdita personalizzata fornisce ulteriore flessibilità, consentendo di utilizzare ad esempio i minimi quadrati iterativamente ripesati per una regressione robusta.

Torna su

Dati categorici

La piattaforma categorica di JMP fornisce tabelle, riepiloghi e test statistici di dati di risposte e dati di risposte multiple quando le risposte misurate indicano l'appartenenza a una particolare categoria. Tali dati vengono generati in una molteplicità di impostazioni, tra cui i risultati di test, la classificazione dei difetti o degli effetti collaterali e indagini sulla somministrazione.

In parte a causa della diversa applicazione, i dati categorici possono essere presentati in vari formati. Un particolare punto di forza della piattaforma categorica risiede nella capacità di gestire questa diversità senza che occorra ridimensionare i dati prima di eseguire l'esplorazione e l'analisi. È possibile utilizzare una o più colonne per definire le categorie in cui o tra cui viene valutata la variazione nella risposta, mentre il report categorico contiene i grafici risultanti di condivisione e frequenza, per categoria. Utilizzati insieme al Filtro dati di JMP, questi grafici consentono un esame rapido e semplice dei dati dell'indagine su larga scala. Il report può inoltre visualizzare le tabulazioni associate e le tabulazioni incrociate, che in caso di necessità possono essere facilmente trasposte per una visualizzazione o stampa semplificata.

In base alla natura delle risposte, è possibile risolvere statisticamente quesiti quali:

  • I pattern di risposta variano con le categorie di campioni e sono cambiati nel tempo?
  • Per ogni categoria di risposta, gli indici sono gli stessi tra categorie di campioni?
  • Quanto concordano i valutatori?
  • Qual è il rischio relativo associato a trattamenti diversi?
Piani di screening definitivi con JMP

Utilizzate la piattaforma categorica per esaminare gli effetti avversi e valutare il rischio relativo in uno studio clinico.

Torna su

Alberi

Albero di decisione con JMP

È possibile creare in modo interattivo un albero di decisione semplice con dati di training e convalida.

La piattaforma di partizione di JMP consente di individuare segmenti o raggruppamenti di input (X) in grado di predire con maggiore precisione la variazione in un output (Y). X e Y possono entrambe essere categoriche o continue. Il processo di suddivisione dei dati tramite individuazione di una X adeguata e di un raggruppamento o di un punto di taglio adeguato per questa X è ricorsivo: è possibile proseguire fino a ottenere una stima utile. Il risultato è naturalmente rappresentato sotto forma di albero; è inoltre possibile ottenere informazioni importanti sulle X che contribuiscono maggiormente a illustrare la variazione a livello della Y.

Gli alberi sono robusti anche in presenza di valori mancanti e sono in grado di comprendere direttamente qualsiasi effetto congiunto delle X. È possibile sviluppare il proprio albero utilizzando alberi decisionali, foreste di bootstrap (solo JMP Pro) o alberi di boosting (solo JMP Pro). Occorre notare che gli alberi di decisione semplici non consentono una generalizzazione efficace con dati nuovi. Per esigenze di funzioni predittive conviene approfondire le potenzialità offerte da JMP Pro.

Torna su

Reti neurali

La piattaforma neurale di JMP consente di creare reti neurali completamente connesse con nodi nascosti in uno o due strati. Ciascun nodo può disporre di una delle tre diverse funzioni di attivazione e in ogni strato è possibile avere un numero qualsiasi di nodi.

JMP Pro permette di gestire automaticamente i dati mancanti, trasformare le X all'interno della piattaforma e utilizzare il boosting per aiutare la rete ad apprendere casi difficili applicando uno dei quattro metodi di penalizzazione.

Reti neurali con JMP Pro

Permettono di confrontare l'effetto delle diverse architetture neurali sul limite della decisione da stime neurali con boosting.

Torna su

Tecniche a interdipendenza multivariata

Tecniche a interdipendenza multivariata

Utilizzo di un diagramma parallelo, di componenti principali e di una matrice del grafico a dispersione non parametrica per studiare l'evoluzione nel tempo di un processo industriale complesso.

Le analisi multivariate possono focalizzarsi su unità osservazionali (righe) o variabili (colonne) e possono trattare variabili su una base di parità (tecniche a interdipendenza) o distinguere tra effetti (X) e risposte (Y) (tecniche a dipendenza). Qualunque sia l'obiettivo analitico, JMP lavorerà con voi per completare l'analisi (per approfondire i metodi di analisi multivariata con X e Y consultate la sezione Tecniche a dipendenza multivariata).

Tenuto conto del contesto multivariato, appare fondamentale considerare la qualità dei dati, l'identificazione e il trattamento degli outlier e il pattern dei valori mancanti. Solitamente queste problematiche devono essere risolte iterativamente nel corso dell'analisi e l'interattività di JMP soddisfa questa esigenza. Per le tecniche a dipendenza, JMP offre funzioni di analisi delle componenti principali (PCA), analisi fattoriale, clusterizzazione, misture di normali e mappe auto-organizzate. Ciascuna funzione utilizza lo stile di analisi illustrativa di JMP, così da poter modellare l'approccio in base alle informazioni emerse dai dati.

Spesso la piattaforma multivariata costituisce il punto di accesso a qualsiasi analisi con numerose colonne. Essa consente una valutazione rapida delle associazioni e delle correlazioni, parametriche e non, tra tutte le coppie di variabili numeriche, l'identificazione degli outlier e l'immissione dei valori mancanti.

L'analisi delle componenti principali permette di ridurre la dimensionalità della descrizione in presenza di correlazioni, mentre l'analisi fattoriale permette di modellizzare la variabilità tra le variabili osservate riducendo il numero di fattori non osservati. La piattaforma di analisi fattoriale consente numerose stime e rotazioni in un unico report, mentre la formattazione condizionale consente l'eliminazione dei valori più piccoli.

La clusterizzazione - tecnica fondamentale nell'apprendimento non controllato - crea sottogruppi in modo che i casi presenti in un particolare sottogruppo abbiano maggiori punti in comune rispetto a quelli presenti in un altro sottogruppo. La piattaforma di clusterizzazione di JMP consente di rappresentare in scala e trasformare le variabili prima di eseguire l'analisi, fornisce svariate misure della distanza e include la clusterizzazione gerarchica e la classificazione basata sul metodo delle k medie. La clusterizzazione gerarchica produce un dendrogramma manipolabile interattivamente con cui determinare il numero idoneo di cluster.

Torna su

Tecniche a dipendenza multivariata

Per le tecniche a dipendenza multivariata, JMP offre funzioni di regressione dei minimi quadrati parziali (PLS) e analisi discriminante.

I minimi quadrati parziali (PLS) costituiscono una tecnica versatile adattabile a dati in qualsiasi forma e a qualsiasi numero di X e di Y. Viene spesso applicata laddove la regressione lineare non è praticabile in quanto vi sono più X che righe, ma può essere vista più in generale anche come tecnica efficace nell'ambito dei modelli predittivi. La piattaforma PLS di JMP offre funzionalità di base, mentre con JMP Pro è presente anche una personalità PLS nella piattaforma Stima modello che permette di adattare modelli più complessi che includono potenze e termini di interazione. Con JMP Pro si possono attribuire valori mancanti, e costruire modelli PLS usando una scelta di modelli di validazione. JMP fornisce entrambi gli algoritmi NIPALS e SIMPLS per la stima e metodi automatici per individuare il numero più appropriato di fattori latenti da includere nel modello. Sono disponibili tutti i consueti metodi diagnostici, così da consentire la verifica dell'adeguatezza del modello. È inoltre possibile generare rapidamente modelli PLS con un numero ridotto di termini semplicemente effettuando selezioni adeguate nel risultato grafico.

La piattaforma Discriminante permette di comprendere quali combinazioni di X aiutano a illustrare l'appartenenza di una Y a una determinata categoria. Essa fornisce metodi lineari, quadratici o regolarizzati per la discriminazione, all'occorrenza la selezione stepwise delle X, e per consente l'ispezione semplice delle righe incerte o classificate erroneamente in modo da definire le azioni di controllo o risolutive da adottare.

Modello PLS con JMP

Questo modello PLS permette di prevedere la qualità dell'acqua nell'ecoregione Blue Ridge del bacino del fiume Savannah.

Torna su

Serie storiche

Serie storiche

Utilizzate l'analisi delle serie storiche per adattare automaticamente una serie di modelli ARIMA e smoothing ed effettuare una previsione dal modello migliore.

La piattaforma Serie storiche di JMP permette di esplorare, elaborare e prevedere serie storiche univariate. L'approccio di modellizzazione statistica può ricavare informazioni dalle normali diagnosi, inclusi diagrammi di autocorrelazioni e autocorrelazioni parziali, variogrammi, coefficienti AR e grafici di densità spettrale.

Con un semplice clic è possibile costruire svariati modelli ARIMA per una serie storica con un range di parametri, nonché selezionare il modello più idoneo utilizzando diverse figure di merito, quali AIC, SBC, MAPE e MAE. È possibile costruire modelli di trasferimento per la modellizzazione di una serie storica di output rispetto a una o più serie di input con, all'occorrenza, eliminazione preventiva del white noise a livello degli input. È inoltre possibile generare l'equivalente codice PROC ARIMA per l'esecuzione del modello su SAS, se necessario.

La piattaforma Serie storiche contiene inoltre diverse tecniche di smoothing per le serie storiche, incluso lo smoothing esponenziale di Holt, lo smoothing esponenziale stagionale e il metodo di Winters.

In tutti i casi è possibile produrre previsioni interattive del comportamento futuro con intervalli di confidenza.

Torna su