1. Centro risorse
  2. Articolo

La scienza dei dati è uno sport di squadra

di Alyson Wilson, professoressa di statistica e Associate Vice Chancellor for National Security and Special Research Initiatives presso la North Carolina State University

Oggi, i dati sono ovunque: è praticamente impossibile accendere la televisione senza vedere un annuncio su come i dati possono trasformare un'impresa o risolvere misteri sanitari. Fino a una decina di anni fa, si diceva: “Gli scienziati dei dati sono più abili nelle statistiche rispetto a qualsiasi programmatore software e migliori nella programmazione software rispetto a qualunque esperto di statistica”. Nel tempo è emersa una definizione più sfumata, illustrata tramite il ciclo di vita della scienza dei dati, cioè di quell'insieme di competenze che vanno dalla generazione, la raccolta e l'elaborazione dei dati alla loro archiviazione e gestione, per arrivare all'analisi, visualizzazione e interpretazione. Per riuscire a fare tutto questo bisogna attingere a diverse discipline e, quando la scienza dei dati viene applicata a un problema attinente a un dominio specifico, bisogna fare appello a ulteriori esperti.

Come statistica, ho ricevuto una formazione che ha più a che vedere con la parte finale del ciclo di vita dei dati. Dopo la specializzazione, ho iniziato a lavorare per un'azienda di cinque persone a El Paso, in Texas, chiamata Cowboy Programming Resources e incaricata di aiutare l'esercito a valutare sistemi di artiglieria per la difesa aerea nuovi o aggiornati. Il nostro obiettivo era capire con quanta facilità i soldati potessero sfruttare il sistema per compiere le loro missioni. Da statistica, le domande che mi sono trovata ad affrontare erano diverse e in un certo senso ben più complesse delle applicazioni biomediche che avevo analizzato a scuola.

Quello che volevamo capire era come i sistemi di artiglieria per la difesa aerea avrebbero funzionato in combattimento, cosa molto difficile da prevedere, perché i risultati variano in base alle reazioni dei soldati e alle dinamiche di ogni singola unità. Spesso e volentieri mi sentivo come se i dati che avevo a disposizione fossero contemporaneamente troppi e non abbastanza. A volte i nostri test duravano anche sei settimane, con 400 soldati sul campo. Pur avendo accesso a ogni singolo messaggio radio scambiato all'interno dei battaglioni, non potevamo testare scenari missione davvero realistici, con tutte le combinazioni di fattori e condizioni possibili. Potevo anche analizzare all'infinito ogni tasto premuto, ma la cosa più importante da simulare era il risultato finale, cioè come ogni unità avrebbe svolto determinate azioni chiave sotto il fuoco nemico.

La scienza dei dati è uno sport di squadra. Man mano che i dati aumentano in volume, velocità e veridicità, risolvere problemi complessi non è più possibile senza decompartimentalizzarli.

Valutare l'andamento delle missioni ha ampliato la mia comprensione e il mio modo di pensare alle statistiche. Fino ad allora, le avevo sempre considerate in un contesto sperimentale, per cui si avanzava un'ipotesi scientifica, si pianificava la raccolta dati, li si raccoglieva, analizzava e si traevano le relative conclusioni. Per quanto la procedura di base fosse la stessa, ogni sua parte veniva portata al limite. Volevo valutare il rendimento delle missioni, ma non ero in grado di testarlo. Avevo a disposizione dei dati, che però non sempre riguardavano esattamente ciò che volevo sapere. Cominciai a interessarmi a domande che richiedevano di mettere insieme tante informazioni diverse per avere una risposta.

In più di un senso, la mia era già scienza dei dati, 20 anni prima che il termine acquisisse popolarità. Trovo molto utile pensare alla scienza dei dati in termini di 4 V: varietà, volume, velocità e veridicità. All'epoca lavoravo su metodi statistici che si occupavano della varietà, cioè di come combinare dati eterogenei per risolvere problemi. Nella scienza dei dati, però, gli statistici operano anche sul volume (come usare set di dati sempre più grandi), velocità (come trarre inferenze dai flussi di dati) e veridicità (come usare dati disorganizzati che potrebbero essere stati raccolti per rispondere ad altri problemi).

Spesso mi trovo a lavorare con team interdisciplinari per rispondere a quelle domande, integrando esperienze e competenze diverse per risolvere problemi complessi. Come statistica, non posso sapere di mio cosa comportino le missioni dell'esercito, o come misurare la degradazione dell'equipaggiamento, o perché un radar si guasta, ma lavorando in un team multidisciplinare mi sono trovata a collaborare con ufficiali militari, scienziati e ingegneri dei materiali per capire come funzionano i diversi componenti di ogni missione.

Dopo l'esperienza alla Cowboy Programming mi sono trasferita al Los Alamos National Laboratory, dove ho trascorso gran parte del mio tempo a valutare l'affidabilità delle riserve nucleari statunitensi. Gli Stati Uniti hanno interrotto i test di funzionamento delle armi nucleari a metà anni novanta, ma i laboratori del paese devono comunque fornire stime annuali sull'affidabilità dell'arsenale. Da un lato, l'interruzione dei test ha fatto scendere la nostra dimensione campionaria a 0. Dall'altro, però, avevamo parecchie informazioni: dati dei test effettuati in precedenza, modelli simulatori, test di funzionamento dei subcomponenti, conoscenze degli esperti e test di degradazione. Ancora una volta, fare ricorso a un team multidisciplinare ha messo insieme fonti di informazioni diverse per trovare risposta alle domande che cercava.

Oggi lavoro alla North Carolina State University come ricercatrice capo del laboratorio di scienza analitica (LAS). LAS è una partnership orientata a uno specifico obiettivo tra ambito universitario, industria e governo, che punta a risolvere problemi di interesse per la community dell'intelligence (IC). A mo' di scherzo, spesso ci diciamo che ogni azienda del mondo vorrebbe sapere come usare i dati per ottenere un vantaggio strategico: ovviamente, anche l'IC ha un interesse in quel senso. L'esistenza di LAS si deve al fatto che l'IC è stata in grado di riconoscere che gran parte dell'innovazione nel campo dei big data derivava dalla capacità delle aziende di fare le domande giuste. LAS si impegna a instaurare partnership in grado di combinare le ricerche universitarie con il know-how di implementazione dei vari settori e i problemi complessi legati all'intelligence e alla sicurezza nazionale. I problemi su cui ci troviamo a lavorare sono molto diversi: come assegnare priorità ai dati, quindi come trovare le registrazioni necessarie tra i trilioni di registri disponibili; l'integrità dell'apprendimento automatico, cioè come mantenere i flussi di lavoro in scala; la collaborazione tra uomo e macchina, quindi come rendere il proprio computer un partner più che un semplice strumento. SAS è partner di lungo corso di LAS, e al momento il nostro lavoro è incentrato sull'automatizzare l'analisi di un corpus di dati con mezzi eterogenei, con l'obiettivo di sviluppare una pipeline di modellazione flessibile e adattabile alle diverse esigenze degli analisti IC.

I problemi su cui lavoriamo in LAS non verrebbero mai risolti senza una collaborazione multidisciplinare. I collaboratori esterni al mondo della statistica ci aiutano a dare un senso ai dati e alle informazioni rilevanti per la risoluzione di problemi specifici. Per fare un esempio, uno dei nostri progetti, il “Social Sifter”, identifica gli account social che fanno parte di un'iniziativa coordinata per diffondere la disinformazione. Esperti di lingua, marketing, psicologia e statistica hanno messo insieme le loro competenze per creare l'interfaccia e gli algoritmi, in grado di analizzare rapidamente grandi volumi di dati online per individuare chi diffonde informazioni errate.

La scienza dei dati è uno sport di squadra. Man mano che i dati aumentano in volume, velocità e precisione, risolvere problemi complessi non è più possibile senza decompartimentalizzarli. Affidarsi a team multidisciplinari è fondamentale per trasformare i dati in informazioni e gli statistici svolgono un ruolo chiave in questo senso.

JMP Foreword


Teniamoci in contatto!

Accetto di essere contattato via e-mail per conoscere novità, eventi e offerte di JMP. Comprendo di poter ritirare il mio consenso in qualsiasi momento.

*
*

JMP è una divisione di SAS Institute Inc. e le informazioni dell'utente verranno gestite in conformità con l'Informativa sulla privacy SAS.

 
 

Approfondici l'argomento