Dark data e pandemia
di David Hand, Professore emerito all'Imperial College di Londra
Negli ultimi anni la statistica e la scienza dei dati hanno catturato l'attenzione del pubblico, con la promessa di rivoluzionare il mondo tramite vantaggi economici, sociali e sanitari. Lo scorso anno, poi, il ruolo pubblico dei dati si è fatto ancora più evidente con l'emergere della pandemia da COVID-19. Politiche, decisioni e piani per cercare di bilanciare l'impatto sulla sanità con le ripercussioni a livello economico, sociale e didattico, hanno dovuto basarsi sui numeri di contagiati e vittime, sull'analisi del diffondersi della malattia e sulla stima delle potenziali conseguenze di interventi di diverso tipo. In sostanza, sui dati relativi alla malattia e alle sue conseguenze.
Comprensibilmente, però, all'inizio i dati disponibili erano limitati e spesso di qualità scadente. John Ioannidis l'ha addirittura definito un “fiasco di quelli che capitano una volta ogni cent'anni”, anche se credo che la sua fosse un'esagerazione. Non ci si può aspettare di trovare i dati relativi a situazioni nuove e inedite già pronti da utilizzare e analizzare. Al contrario, bisogna sviluppare strategie adeguate per raccoglierli e stabilire procedure per misurarli. Dopodiché, bisogna ottenerli, confrontarli e interpretarli. Nel frattempo, ci si deve arrangiare con il meglio che si ha a disposizione. Questo è vero soprattutto per i politici, che non hanno la possibilità di aspettare i tempi richiesti dalla scienza, ma devono prendere decisioni in base ai dati che hanno per le mani in quel momento. Pertanto, criticare i governi che hanno continuato a cambiare linea da un giorno all'altro potrebbe essere ingiusto: al contrario, bisogna riconoscerne il merito, in quanto, come diceva JM Keynes: “Quando cambiano i fatti, cambiano le mie opinioni”.
Sarebbe bello poter pensare che tra le conseguenze di quanto accaduto ci sia anche la diffusione di una maggiore consapevolezza della natura imprevedibile della scienza, del fatto che non si tratta di una serie di fatti immutabili, ma di un processo, ovvero qualcosa che può cambiare con l'acquisizione di nuove informazioni.
Criticare i governi che hanno continuato a cambiare linea da un giorno all'altro potrebbe essere ingiusto: al contrario, bisogna riconoscerne il merito, in quanto, come diceva JM Keynes: “Quando cambiano i fatti, cambiano le mie opinioni”.
Se la scarsità di dati all'inizio di una sfida difficile come la pandemia è comprensibile, è possibile trarne conclusioni ragionevoli solo se se ne riconoscono le limitazioni. Gli intervalli di incertezza vanno calcolati tenendo presenti i possibili valori di ciò che non si conosce. Ma a sua volta questo può implicare ulteriori rischi. Affrontare i pericoli derivanti da numeri su cui si ha qualche incertezza è una cosa, ma gestire, o addirittura riconoscere, i rischi posti da numeri che non si sa nemmeno che esistono è molto più difficile. In questo caso, il pericolo non è tanto quello di giungere a una conclusione molto incerta, quanto di trarre una conclusione “certa” ma errata.
Prendiamo ad esempio i contagi da COVID-19 e i tassi di mortalità.
Determinare il numero di persone malate di COVID-19 e la velocità del contagio è facile: basta contare il numero di individui sintomatici. Peccato che, da un lato, molti sembrano aver contratto (e trasmesso) il COVID-19 senza manifestare alcun sintomo e, dall'altro, i sintomi del COVID-19 siano anche quelli di altre malattie. Peggio ancora, non si può fare affidamento su chi si presenta in ospedale o dal medico, perché non è un campione rappresentativo dell'intera popolazione. Per evitare problemi di autoselezione saranno necessari dei sondaggi ufficiali, creati tramite quadri di campionamento costruiti con attenzione. Anche in quel caso, tuttavia, gli errori dovuti al campionamento della variabilità in un sondaggio possono essere gestiti tramite strumenti comprovati, mentre gli errori dovuti a una mancata risposta, causati da definizioni mal formulate o fuorvianti, sono ben più complessi.
La soluzione, potreste giustamente pensare, è non fare affidamento sui sintomi e sulla loro incertezza intrinseca, ma effettuare test medici ufficialmente riconosciuti secondo procedure ben precise. Giusto, a condizione di conoscere le percentuali di falsi positivi e falsi negativi. Purtroppo, però, non si tratta di proprietà intrinseche dei test in sé, quanto di conseguenze dell'attenzione con cui viene effettuato il tampone.
Se le percentuali dei contagi rappresentano un problema nel determinare la diffusione della malattia in una popolazione specifica, questo vale anche per la mortalità? Certo, la definizione del dato è molto più semplice: in genere è abbastanza evidente se uno è vivo o morto, quindi è più facile ottenere i relativi conteggi. Se non che, anche in questo caso le cose non sono poi così chiare. Bisogna conteggiare chi è morto per il COVID-19 o con il COVID-19? E come si fa a determinare la differenza? E chi invece è morto per altre cause, aggravate però dal COVID-19? Quanto tempo dopo un tampone positivo si può considerare il rischio da COVID-19 ridotto a zero? E invece tutti quelli che sono morti di COVID-19 ma senza aver mai fatto un tampone?
Queste differenze potrebbero spiegare anche il divario a volte molto significativo tra i tassi di mortalità tra i diversi paesi. Al 28 maggio 2020, per esempio, il Regno Unito aveva registrato 267 240 casi di COVID-19 e 37 460 morti, mentre la Russia riportava 379 051 casi, ma con sole 4142 morti. È possibile che tale discrepanza fosse dovuta semplicemente al diverso modo di conteggiare i dati?
Tra gli altri problemi relativi ai dati (o dark data*) verificatisi durante la pandemia segnaliamo:
• Dati potenziali: cioè le condizioni controfattuali emerse durante interventi o test clinici.
• Limitazioni volontarie: come fatto presente da Donald Trump, un modo per ridurre la percentuale di contagi osservata è ridurre il numero di tamponi effettuati.
• Cambiamenti verificatisi nel tempo (per esempio per comportamenti dovuti allo sfinimento, quando la gente ha cominciato a violare il distanziamento sociale).
• Mancato calcolo di variabili rilevanti: il fatto che la gravità della malattia fosse legata a età, fragilità e altre caratteristiche, per esempio, è emerso solo nel tempo.
• Dati sommari: un tasso di contagi nazionali pari a 20 su 100 000 contagiati può rivelarsi fuorviante, se tutti i casi sono riconducibili, per esempio, a un singolo evento sportivo.
La pandemia ha sicuramente introdotto nuove problematiche sia a livello statistico sia (e soprattutto) a livello di dati. Una delle conseguenze più incoraggianti, però, che potrebbe continuare anche dopo la pandemia, è il modo in cui abbiamo imparato a raccogliere dati rilevanti, capirli e usarli per sviluppare iniziative efficaci. Viene quasi da nutrire nuove speranze per la razza umana: speranze basate sulla statistica e la scienza dei dati.
*Dark Data: Why What You Don’t Know Matters, di David J. Hand, Princeton University Press, 2020.
Quanto rischiamo di perderci dati importanti? Leggi un capitolo gratuito del libro di David Hand "Dark Data": jmp.com/darkdata
JMP Foreword
Teniamoci in contatto! Iscriviti.
Accetto di essere contattato via e-mail per conoscere novità, eventi e offerte di JMP. Comprendo di poter ritirare il mio consenso in qualsiasi momento.