Les Dark Data et la pandémie

écrit par David Hand, professeur à l'Imperial College London

Les statistiques et la science des données ont attiré l'attention du public ces dernières années, avec leur promesse de révolutionner notre monde grâce à des avantages économiques, sociaux et sanitaires. Au cours de l'année écoulée, le rôle public des données n'a jamais été aussi évident que lors de la pandémie de coronavirus. Les politiques, les décisions et la planification - qui mettent en balance l'impact sur la santé et l'impact économique, éducatif et social - ont dû se fonder sur le dénombrement des infections et des décès, sur la compréhension de la façon dont la maladie s'est propagée et sur l'estimation des conséquences de différentes interventions. C'est-à-dire sur les données décrivant les maladies et leurs conséquences.

Il n'est cependant pas surprenant qu'au début, les données étaient limitées et souvent de mauvaise qualité. John Ioannidis est allé jusqu'à le décrire comme un "fiasco de preuves qui n'arrive qu'une fois par siècle", mais je pense qu'il a été injuste. Il n'est pas réaliste de s'attendre à ce que les données décrivant de manière adéquate des situations nouvelles et inédites soient toutes prêtes, mûres pour l'analyse. Il s'agit plutôt de développer des stratégies de collecte de données et d'établir des procédures de mesure. Ensuite, nous devons collecter, rassembler et interpréter les données. Et pendant ce temps, nous devons faire de notre mieux avec les données limitées dont nous disposons. C'est particulièrement vrai pour les politiciens, qui n'ont pas le luxe de pouvoir attendre que la science fasse son travail ; ils doivent prendre une décision sur la base des données disponibles au moment donné. Par conséquent, il est donc sans doute injuste de reprocher aux gouvernements de changer de stratégie. Au contraire, il faut peut-être les en féliciter - comme le disait JM Keynes : « Quand les faits changent, je change d'avis ».

Il serait agréable de penser qu'une autre conséquence a été la sensibilisation du public à la nature contingente de la science : la science est un processus, pas une accumulation fixe de faits, mais plutôt quelque chose qui est toujours susceptible de changer à mesure que de nouvelles informations sont disponibles.

Il est sans doute injuste de reprocher aux gouvernements de changer de stratégie. Au contraire, il faut peut-être les en féliciter, comme le disait JM Keynes : « Quand les faits changent, je change d'avis ».

Si le manque de données au début d'un nouveau défi comme la pandémie est compréhensible, nous ne pouvons tirer de conclusions sensées que si nous acceptons les limites des données. Que des intervalles d'incertitude sont donnés, en tenant compte des valeurs possibles de ce que vous ne savez pas. Mais ceci met en lumière d'autres risques. Vous pouvez gérer les dangers découlant de nombres dont vous n'êtes pas sûrs, mais il est beaucoup plus difficile de gérer, ou même de reconnaître, les dangers découlant de nombres dont vous ne connaissez même pas l'existence. Ici, la conséquence n'est pas simplement de tirer une conclusion très incertaine. Il s'agit plutôt de tirer une conclusion « certaine » qui est fausse.

Prenez par exemple les taux d'infection et de mortalité du coronavirus.

Il est facile de déterminer le nombre de personnes atteintes du coronavirus et le rythme auquel de nouvelles personnes sont infectées - il suffit de compter le nombre de personnes présentant des symptômes. Sauf que, d'une part, de nombreuses personnes semblent contracter (et pouvoir transmettre) le coronavirus sans avoir de symptômes, et d'autre part, les symptômes du coronavirus sont également des symptômes d'autres maladies. Pire encore, on ne peut pas se fier aux personnes qui se présentent dans les cliniques ou les hôpitaux, car elles ne sont probablement pas représentatives de l'ensemble de la population Des enquêtes formelles, utilisant des cadres d'échantillonnage soigneusement construits, sont nécessaires pour éviter les problèmes d'auto-sélection. Mais même dans ce cas, si l'erreur découlant de la variabilité de l'échantillonnage dans une enquête est assez facile à traiter à l'aide d'outils bien établis, et si l'erreur découlant de la non-réponse est un peu plus difficile, l'erreur découlant elle de définitions médiocres ou trompeuses est toute autre.

La réponse, pourrait-on dire à juste titre, n'est pas de se fier aux symptômes et à leur incertitude intrinsèque, mais d'effectuer des tests médicaux formels dont les procédures sont précisément définies. Ce qui est bien, à condition de connaître les taux de faux positifs et de faux négatifs. Malheureusement, il ne s'agit pas de simples propriétés des tests eux-mêmes ; elles dépendent également de la rigueur avec laquelle les tests sont administrés.

Si les taux d'infection représentent des défis pour déterminer la propagation de la maladie dans la population, qu'en est-il des taux de décès ? Dans ce cas, la définition est sûrement beaucoup plus simple : on sait généralement si quelqu'un est vivant ou mort, et les chiffres sont donc plus faciles à compter. Sauf qu'il s'avère que ce n'est finalement pas si clair que ça. Comptez-vous ceux qui sont morts du coronavirus ou avec le coronavirus ‑ une différence qu'il faut savoir faire. Qu'en est-il des personne décédées suite à une autre cause aggravée par le coronavirus ? Combien de temps après un test positif au coronavirus considérez-vous que le risque de coronavirus baisse à zéro ? Et n'oubliez-vous pas les personnes décédées du coronavirus mais qui n'ont pas eu de dépistage formel ?

On peut supposer que des définitions différentes expliquent aussi en partie les différences parfois très importantes entre les taux de mortalité au sein de différents pays. Par exemple, au 28 mai 2020, le Royaume-Uni signalait 267 240 cas de coronavirus et 37 460 décès, tandis que la Russie signalait 379 051 cas mais seulement 4 142 décès. Les différentes méthodes de comptage des décès sont-elles responsables de cet écart important ?

Il existe d'autres problèmes de données ‑ d'autres types de dark data ‑ sont apparus au cours de la pandémie :

• Les données qui auraient pu être : c'est-à-dire les hypothétiques faits survenant lors d'interventions ou d'essais cliniques.
• Les techniques de passe-passe. Comme Donald Trump l'a justement souligné, une façon de réduire le taux d'infection observé est de réduire le nombre de tests effectués.
• Les changements au fil du temps (en raison de la fatigue comportementale, par exemple, où les gens abandonnent les mesures de distanciation sociale).
• Il manque des variables pertinentes entières. Par exemple, ce n'est que progressivement qu'il est apparu que la gravité de la maladie était liée à l'âge, aux carences et à d'autres caractéristiques.
• Données récapitulatives. Par exemple, un décompte national de 20 cas d'infection sur 100 000 pourrait se voir très trompeur si tous les cas se sont propagés lors d'un seul événement sportif.

Il ne fait aucun doute que la pandémie a posé des défis inédits en matière de statistiques et, surtout, de données. Mais, en dehors du contexte de la pandémie, l'une des choses vraiment encourageantes est la façon dont on a rapidement collecté des données pertinentes, amélioré leur compréhension et développé des interventions efficaces. Cela donne presque un espoir pour l'espèce humaine ‑ un espoir obtenu grâce aux statistiques et à la science des données.

*Dark Data: Why What You Don't Know Matters (traduction : Les Dark Data : L'importance de ce que vous ne savez pas), David J. Hand, Princeton University Press, 2020.

Passons-nous à côté de ce qui importe vraiment ? Obtenez un chapitre gratuit du livre Dark Data de David Hand :jmp.com/darkdata

JMP Foreword


Restons en contact ! Abonnez-vous.

J'autorise JMP à m'envoyer par e-mail des informations concernant les nouveautés, événements ou offres promotionnelles. Je peux retirer mon consentement à tout moment.

*
*

JMP est une division de SAS Institute Inc., vos informations seront utilisées en accord avec la politique de confidentialité de SAS.