La science des données est un sport d'équipe

par Alyson Wilson, professeure de statistiques et vice-chancelière associée responsable des initiatives de sécurité nationale et de recherches spéciales à l'université d'État de Caroline du Nord

Les « données » sont omniprésentes : impossible d'allumer la télévision sans voir une publicité qui vous explique comment elles vont révolutionner votre entreprise ou résoudre un mystère lié à la médecine. Il y a environ dix ans, voici comment on définissait le data scientist (ou scientifique des données) : « une personne meilleure en statistiques que n'importe quel ingénieur logiciel, et meilleure en ingénierie logicielle que n'importe quel statisticien ». Au fil du temps, une définition plus nuancée a vu le jour, illustrée à l'aide du cycle de vie de la science des données. Celui-ci est constitué de l'ensemble de compétences suivant : génération, collecte, traitement, entreposage, gestion, analyse, visualisation et interprétation des données. Cet ensemble de compétences implique de nombreuses disciplines et, lorsque la science des données s'applique à un domaine précis, l'équipe s'élargit encore davantage.

En tant que statisticienne, on m'a formée aux compétences correspondant plutôt à la partie de droite du cycle de vie. Une fois diplômée, j'ai été embauchée par une entreprise de cinq personnes à El Paso, au Texas, qui s'appelait Cowboy Programming Resources. Elle avait pour vocation d'aider l'armée à évaluer ses nouveaux systèmes d'artillerie antiaérienne ou ceux mis à niveau. Notre objectif consistait à tester dans quelle mesure les soldats pouvaient utiliser les systèmes pour mener à bien leurs missions. En tant que statisticienne, les questions auxquelles j'étais confrontée étaient différentes, et sous certains aspects plus complexes, que celles rencontrées dans les domaines biomédicaux étudiés à l'école.

Ce qui nous intéressait, c'était de comprendre comment les systèmes d'artillerie antiaérienne fonctionneraient en plein combat, ce qui par nature est imprévisible. Les réactions des soldats ainsi que la dynamique de l'unité affectent le résultat. La plupart du temps, j'avais l'impression d'avoir trop de données, et à la fois pas assez. Nos tests pouvaient durer six semaines avec 400 soldats sur le terrain. Même si nous avions accès à tous les messages radio envoyés au sein du bataillon, il était impossible de tester tous les scénarios possibles avec l'intégralité des combinaisons de facteurs et de conditions. J'avais un œil sur chacune des touches enfoncées, mais nous simulions le principal résultat, à savoir la façon dont le bataillon effectuerait des actions précises sous le feu ennemi.

La science des données est un sport d'équipe. À l'heure où le volume, la vélocité, la variété et la véracité des données augmentent, résoudre des problèmes complexes nécessite un travail collectif.

Évaluer la performance des missions m'a permis de mieux cerner la notion de statistiques, et d'accroître ma réflexion à ce sujet. J'avais toujours appréhendé les statistiques dans un contexte expérimental, où on formulait une hypothèse, on prévoyait la collecte des données, on les rassemblait, on analysait les preuves puis on tirait des conclusions. Bien que j'aie conservé cette approche, je l'ai développée. Je voulais comprendre la performance des missions, sans pouvoir réellement la tester. J'avais les données, sans qu'elles concernent toujours précisément ce que je voulais savoir. J'en suis venue à m'intéresser sérieusement à des questions auxquelles je ne pouvais répondre qu'en rassemblant divers types d'informations.

Sous bien des aspects, la science des données faisait déjà partie de mon quotidien, 20 ans avant que le terme ne soit popularisé. La règle des 4 V me semble idéale pour évoquer la science des données : variété, volume, vélocité et véracité. Je travaillais à des méthodes statistiques permettant de trouver comment combiner des informations hétérogènes pour résoudre des problèmes liés à la variété des données. Dans la science des données, les statisticiens se concentrent également sur le volume (comment exploiter des ensembles de données de plus en plus vastes), la vélocité (comment faire des inférences à partir de la diffusion de données) et la véracité (comment utiliser des données en vrac qui ont pu être collectées à une autre fin que de résoudre votre problème).

Je me retrouve souvent à collaborer avec des équipes interdisciplinaires pour traiter ce type de questions, ce qui me permet de profiter d'expertises distinctes pour trouver des solutions à des problèmes complexes. En tant que statisticienne, je ne sais pas d'entrée de jeu ce qu'impliquent les missions de l'armée, ni comment mesurer la dégradation des équipements ou comment se manifeste la défaillance d'un radar. Mais en travaillant main dans la main avec une équipe pluridisciplinaire, je me suis associée à des officiers de l'armée, des scientifiques spécialisés dans les matériaux et des ingénieurs pour comprendre comment fonctionnent ces différents composants d'une mission.

Après mon expérience chez Cowboy Programming, j'ai intégré le laboratoire Los Alamos National Laboratory, où j'ai passé la majeure partie de mon temps à évaluer la fiabilité de l'arsenal nucléaire américain. Les États-Unis ont cessé de tester intégralement leurs armes nucléaires au milieu des années 1990, mais les laboratoires nationaux fournissent toujours une estimation annuelle de la fiabilité des stocks du pays. D'un côté, lorsque les tests ont pris fin, notre taille d’échantillon est passée à 0. De l'autre, nous avions une grande quantité d'informations à disposition : les données issues des anciens tests, les modèles de simulation, les tests de fonctionnement des sous-composants, l'expertise des spécialistes, les tests de dégradation. Là encore, une équipe pluridisciplinaire a été mise sur pied dans le but d'exploiter plusieurs sources d'informations afin de répondre à des questions.

Aujourd'hui, à l'université d'État de Caroline du Nord, j'officie en tant que principale investigatrice pour le laboratoire des sciences analytiques (Laboratory for Analytic Sciences - LAS). LAS concrétise un partenariat entre le monde universitaire, l'industrie et le gouvernement dans le but de trouver des solutions à des problèmes susceptibles d'intéresser la communauté du renseignement des États-Unis. Nous plaisantons seulement à moitié lorsque nous disons que chaque entreprise au monde demande à savoir comment utiliser ses données pour acquérir un avantage stratégique. C'est bien évidement un sujet tout aussi crucial pour les services de renseignements américains. LAS a vu le jour parce que la communauté du renseignement des États-Unis a admis que la plupart des innovations apportées dans le domaine du big data découlaient directement de ce besoin des entreprises. Chez LAS, nous concluons des partenariats dans le but de relier les recherches de base du monde universitaire au savoir-faire de l'industrie en matière d'implémentation, et aux problèmes complexes auxquels sont confrontées les agences de renseignement et de sécurité nationale américaines. Les problèmes sur lesquels nous travaillons sont très variés : catégorisation des données (comment trouver les dossiers dont vous avez besoin à partir des milliers de milliards que vous avez en stock), intégrité de l'apprentissage automatique (comment maintenir vos workflows à grande échelle) et collaboration entre les humains et les machines (comment faire de votre ordinateur un partenaire et non plus un simple outil). SAS est un partenaire de longue date de LAS, et notre travail actuel est centré sur l'automatisation de l'analyse d'un corpus de données avec des moyens hétérogènes. Le but est de développer un pipeline de modélisation flexible qui peut facilement être adapté aux besoins de l'analyste de la communauté du renseignement.

Les problèmes sur lesquels nous travaillons chez LAS ne pourraient trouver de solution sans une collaboration pluridisciplinaire. Pour les résoudre, des participants atypiques nous aident à donner du sens aux données et aux informations pertinentes. Par exemple, l'un des nos projets LAS du nom de « Social Sifter » (Tamis de médias sociaux) identifie les principaux comptes de médias sociaux qui évoluent autour d'un même objectif : répandre de fausses informations. Des experts en langues, en marketing, en psychologie et en statistiques ont aidé à créer l'interface et les algorithmes, qui peuvent ratisser en deux temps trois mouvements de larges volumes d'informations en ligne pour trouver les personnes responsables de cette désinformation.

La science des données est un sport d'équipe. À l'heure où le volume, la vélocité, la variété et la véracité des données augmentent, résoudre des problèmes complexes nécessite un travail collectif. Avoir recours à des équipes pluridisciplinaires est indispensable pour transformer de simples données en informations. En tant que statisticiens, le rôle que nous avons à jouer est critique.

JMP Foreword


Restons en contact !

J'autorise JMP à m'envoyer par e-mail des informations concernant les nouveautés, événements ou offres promotionnelles. Je peux retirer mon consentement à tout moment.

*
*

JMP est une division de SAS Institute Inc., vos informations seront utilisées en accord avec la politique de confidentialité de SAS.