Article

Effectuer des prévisions à l'ère de l'Internet des objets

par Galit Shmueli, National Tsing Hua University

Anticiper les prochaines valeurs d'une série chronologique est une méthode séculaire très utilisée dans le monde des affaires et de l'industrie. Qu'il s'agisse des prochaines ventes trimestrielles, de la demande mensuelle ou de la planification des ressources, les prévisions jouent un rôle dans les opérations de planification et d'évaluation au sein de différents secteurs. Dans le monde actuel du big data, les prévisions se sont propagées à de nouveaux domaines pour être utilisées différemment, faisant apparaître de nouvelles opportunités et de nouveaux défis.

Dans le domaine des séries temporelles, le terme "Big Data" fait référence à de vastes collections de séries temporelles. Par exemple, des milliers de dispositifs de mesure de la qualité de l'air ou de l'efficacité énergétique produisent un grand nombre de séries temporelles. Ces données de séries temporelles sont désormais abondantes grâce aux nouveaux systèmes de collecte de données, au transfert rapide de données et au stockage massif peu coûteux : des smartphones qui collectent en permanence des informations sur nos moindres comportements, à l'internet des objets (IdO) - dispositifs informatiques intégrés dans les environnements quotidiens et connectés à l'internet, y compris les appareils domestiques intelligents (thermostats intelligents, cafetières, robots de nettoyage), les vêtements intelligents (bracelets de fitness, chaussures de course) et les jouets, les capteurs environnementaux tels que les dispositifs de surveillance de la qualité de l'air, les capteurs de trafic, et bien plus encore. Certaines entreprises disposent également d'une multitude de séries chronologiques provenant de capteurs qui collectent des données sur des éléments tels que la température, l'humidité, la vitesse du vent pour les turbines à air ou le mouvement d'objets et les défaillances opérationnelles dans le cadre d'un processus de fabrication.

Contrairement à l'analyse d'une série chronologique, dont l'objectif est d'identifier sa configuration principale, puis de tester des hypothèses en fonction des paramètres, les prévisions d'une série chronologique visent à anticiper les périodes à venir. L'approche de la modélisation est alors très différente. Bien que certains algorithmes de prévision tels qu'ARIMA peuvent être utilisés à la fois pour l'analyse et la prévision, leur application et leur évaluation diffèrent. Pour effectuer des prévisions, il est également nécessaire de penser aux problèmes pratiques de disponibilité des données au moment du déploiement, à la vitesse requise du déploiement et à son niveau d'automatisation, et à la manière dont seront exploitées les prévisions, puisqu'elles impliquent des actions futures.

Alors que le volume des données de séries temporelles augmente, il arrive souvent que seule une petite partie soit nécessaire pour prévoir des valeurs futures intéressantes ou pour observer des schémas utiles dans les données. De nombreuses nouvelles sources de séries temporelles "big data" sont souvent disponibles à une fréquence plus élevée. Plutôt que trimestrielles, mensuelles ou hebdomadaires, de nombreuses séries sont désormais disponibles minute par minute, voire seconde par seconde. Cependant, les données de séries temporelles nécessaires pour faire des prévisions utiles ou pour observer des schémas intéressants peuvent être relativement peu nombreuses. Par exemple, pour explorer certaines données de capteurs dans un processus de fabrication afin d'anticiper les défaillances opérationnelles, vous commencerez probablement par un échantillon et expérimenterez différentes périodicités (par minute, heure, jour, etc.) si les données sont collectées à ces intervalles. - si les données sont collectées à ces intervalles.

L'omniprésence des appareils connectés entraîne de vastes ensembles de séries chronologiques dans de nombreux domaines où les prévisions peuvent se révéler extrêmement utiles pour agir, planifier et évaluer.

En 15 ans d'enseignement sur les prévisions aux États-Unis, en Inde, à Taïwan et en ligne, j'ai vécu l'essor des nouvelles données de séries chronologiques, et j'ai pu observer la façon dont les entreprises ont progressivement utilisé les prévisions dans de nouveaux buts. Mes étudiants travaillent en équipe sur un véritable problème métier, en collaboration avec une entreprise. Il peut s'agir d'entreprises internationales ou de start-ups dans le secteur des services et de l'économie du partage. Alors que les premiers projets consistaient surtout à anticiper une poignée de données mensuelles ou trimestrielles sur les ventes, ces dernières années, les projets ont mené les étudiants à se pencher sur de vastes ensembles de séries chronologiques, des données très fréquentes, des taux de rafraîchissement élevés et/ou de nouveaux types de données. Ils ont notamment pu anticiper :

• Le taux d'occupation dans chaque filiale d'une chaîne de restaurant du jour au lendemain.

• Le trafic quotidien de pages de fans sur Facebook.

• La demande des consommateurs pour des centaines d'emballages de boissons personnalisés différents.

• La demande mensuelle pour des centaines de pièces automobiles détachées différentes.

• Le nombre quotidien de problèmes signalés par des utilisateurs pour une école en ligne.

• La disponibilité horaire de chaque parking d'une entreprise taïwanaise.

• L'utilisation/la fréquentation dans de nombreux aéroports, vols, réservations de taxis et vélos au sein d'une économie de partage.

L'évolution des types et volumes de données peut être également constatée dans la M-Competition, un concours de prévisions de séries chronologiques né en 1982 (organisé par le chercheur spécialisé dans les prévisions Spyros Makridakis) et dont l'objectif est d'évaluer et de comparer la précision des différentes méthodes de prévision. Alors qu'en 1993, le concours comptait 29 séries mensuelles, en 2020, 100 000 séries quotidiennes hiérarchiques provenant de Walmart ont été analysées, en commençant au niveau des SKU.

Comment les algorithmes de prévision se comportent-ils dans de telles applications ? Dans un scénario avec une ou plusieurs séries chronologiques, les prévisions sont générées une seule fois ; dans notre situation, nous avons plutôt besoin d'algorithmes de prévision qui fonctionnent efficacement et en continu sur de vastes ensembles de séries chronologiques (pour actualiser régulièrement les prévisions). Les algorithmes rapides et flexibles (par exemples les méthodes de lissage exponentiel et modèles de régression linéaire) sont les plus utiles. De plus, pour être efficace, le logiciel doit être suffisamment puissant pour faire fonctionner plusieurs algorithmes de prévision sur de nombreuses séries, et être capable d'automatiser le processus pour qu'il soit relancé facilement afin de générer des prévisions à jour dès que de nouvelles données arrivent. JMP possède cette fonctionnalité : il met en œuvre une large gamme d'algorithmes de lissage exponentiel pouvant convenir à de nombreux ensembles de séries chronologiques et sélectionne le « meilleur » modèle pour chacune d'entre elles.

En conclusion : Les prévisions sont désormais omniprésentes dans le monde des affaires et de l'industrie, qu'il s'agisse de produits ou de services, de grandes entreprises ou de start-ups. L'omniprésence des appareils IoT a conduit à de grandes collections de séries temporelles dans de nombreux domaines, où la prévision peut être extrêmement utile pour agir, planifier et évaluer. Aujourd'hui, les besoins de prévision en matière de big data consistent souvent à produire des prévisions rapides pour de nombreuses séries sur une base continue. Les séries temporelles peuvent contenir des informations supplémentaires telles que des informations transversales ou hiérarchiques. Les méthodes permettant d'établir des prévisions pour ces systèmes et d'évaluer leurs performances font l'objet de recherches dans le domaine de la prévision.