Effectuer des prévisions à l'ère de l'Internet des objets

par Galit Shmueli, National Tsing Hua University

Anticiper les prochaines valeurs d'une série chronologique est une méthode séculaire très utilisée dans le monde des affaires et de l'industrie. Qu'il s'agisse des prochaines ventes trimestrielles, de la demande mensuelle ou de la planification des ressources, les prévisions jouent un rôle dans les opérations de planification et d'évaluation au sein de différents secteurs. Dans le monde actuel du big data, les prévisions se sont propagées à de nouveaux domaines pour être utilisées différemment, faisant apparaître de nouvelles opportunités et de nouveaux défis.

Dans une série chronologique, « big data » fait référence à de vastes ensembles de séries chronologiques. Par exemple, des milliers d'appareils de mesure de la qualité de l'air ou de l'efficacité énergétique produisent un vaste ensemble de séries chronologiques. Les nouveaux systèmes de collecte des données, le transfert de données rapide ou encore les grandes capacités de stockage à moindre coût entraînent l'abondance de telles données de séries chronologiques par les smartphones qui collectent des informations en continu sur notre comportement ou encore par l'Internet des objets. Ce dernier englobe les dispositifs informatiques connectés à Internet qui font partie de notre environnement quotidien : appareils domestiques intelligents (thermostats, cafetières, robots de nettoyage), accessoires connectés (bracelets de fitness, chaussures de sport), jouets ou capteurs environnementaux tels que des appareils de contrôle de la qualité de l'air, détecteurs de trafic et bien plus encore. Certaines entreprises disposent également de séries chronologiques abondantes car elles collectent des données sur la température, l'humidité, la vitesse du vent pour les turbines à air ou encore le mouvement des objets et les défauts de fonctionnement dans un processus de fabrication.

Contrairement à l'analyse d'une série chronologique, dont l'objectif est d'identifier sa configuration principale, puis de tester des hypothèses en fonction des paramètres, les prévisions d'une série chronologique visent à anticiper les périodes à venir. L'approche de la modélisation est alors très différente. Bien que certains algorithmes de prévision tels qu'ARIMA peuvent être utilisés à la fois pour l'analyse et la prévision, leur application et leur évaluation diffèrent. Pour effectuer des prévisions, il est également nécessaire de penser aux problèmes pratiques de disponibilité des données au moment du déploiement, à la vitesse requise du déploiement et à son niveau d'automatisation, et à la manière dont seront exploitées les prévisions, puisqu'elles impliquent des actions futures.

Alors que le volume des données de séries chronologiques monte en flèche, il arrive souvent que seule une petite part ne soit nécessaire pour anticiper de futures valeurs d'intérêt ou pour observer des configurations utiles au sein des données. De nouvelles sources de séries chronologiques « big data » sont souvent disponibles plus fréquemment. Au lieu d'être disponibles chaque trimestre, mois ou semaine, de nombreuses séries le sont désormais chaque minute, voire chaque seconde. Cependant, seules de petites quantités de données de séries chronologiques peuvent suffire à l'élaboration de prévisions utiles ou à l'observation de configurations pertinentes. Par exemple, pour explorer certaines données de capteurs dans un processus de fabrication afin d'anticiper des défauts de fonctionnement, vous commenceriez sûrement par tester un échantillon sur plusieurs périodicités : par minute, heure, jour, etc., si les données sont collectées dans ces incréments.

L'omniprésence des appareils connectés entraîne de vastes ensembles de séries chronologiques dans de nombreux domaines où les prévisions peuvent se révéler extrêmement utiles pour agir, planifier et évaluer.

En 15 ans d'enseignement sur les prévisions aux États-Unis, en Inde, à Taïwan et en ligne, j'ai vécu l'essor des nouvelles données de séries chronologiques, et j'ai pu observer la façon dont les entreprises ont progressivement utilisé les prévisions dans de nouveaux buts. Mes étudiants travaillent en équipe sur un véritable problème métier, en collaboration avec une entreprise. Il peut s'agir d'entreprises internationales ou de start-ups dans le secteur des services et de l'économie du partage. Alors que les premiers projets consistaient surtout à anticiper une poignée de données mensuelles ou trimestrielles sur les ventes, ces dernières années, les projets ont mené les étudiants à se pencher sur de vastes ensembles de séries chronologiques, des données très fréquentes, des taux de rafraîchissement élevés et/ou de nouveaux types de données. Ils ont notamment pu anticiper :

• Le taux d'occupation dans chaque filiale d'une chaîne de restaurant du jour au lendemain.

• Le trafic quotidien de pages de fans sur Facebook.

• La demande des consommateurs pour des centaines d'emballages de boissons personnalisés différents.

• La demande mensuelle pour des centaines de pièces automobiles détachées différentes.

• Le nombre quotidien de problèmes signalés par des utilisateurs pour une école en ligne.

• La disponibilité horaire de chaque parking d'une entreprise taïwanaise.

• L'utilisation/la fréquentation dans de nombreux aéroports, vols, réservations de taxis et vélos au sein d'une économie de partage.

L'évolution des types et volumes de données peut être également constatée dans la M-Competition, un concours de prévisions de séries chronologiques né en 1982 (organisé par le chercheur spécialisé dans les prévisions Spyros Makridakis) et dont l'objectif est d'évaluer et de comparer la précision des différentes méthodes de prévision. Alors qu'en 1993, le concours comptait 29 séries mensuelles, en 2020, 100 000 séries quotidiennes hiérarchiques provenant de Walmart ont été analysées, en commençant au niveau des SKU.

Comment les algorithmes de prévision se comportent-ils dans de telles applications ? Dans un scénario avec une ou plusieurs séries chronologiques, les prévisions sont générées une seule fois ; dans notre situation, nous avons plutôt besoin d'algorithmes de prévision qui fonctionnent efficacement et en continu sur de vastes ensembles de séries chronologiques (pour actualiser régulièrement les prévisions). Les algorithmes rapides et flexibles (par exemples les méthodes de lissage exponentiel et modèles de régression linéaire) sont les plus utiles. De plus, pour être efficace, le logiciel doit être suffisamment puissant pour faire fonctionner plusieurs algorithmes de prévision sur de nombreuses séries, et être capable d'automatiser le processus pour qu'il soit relancé facilement afin de générer des prévisions à jour dès que de nouvelles données arrivent. JMP possède cette fonctionnalité : il met en œuvre une large gamme d'algorithmes de lissage exponentiel pouvant convenir à de nombreux ensembles de séries chronologiques et sélectionne le « meilleur » modèle pour chacune d'entre elles.

En conclusion, les prévisions sont désormais omniprésentes dans le monde des affaires et de l'industrie, dans les secteurs des biens et des services, que ce soit pour de grandes entreprises ou des start-ups. L'omniprésence des appareils connectés entraîne de vastes ensembles de séries chronologiques dans de nombreux domaines où les prévisions peuvent se révéler extrêmement utiles pour agir, planifier et évaluer. Les besoins actuels en prévisions du big data poussent souvent à produire des prévisions rapides et en continu pour de nombreuses séries. Les séries chronologiques peuvent contenir des informations supplémentaires : transversales ou hiérarchiques, par exemple. Les méthodes de prévision pour de tels systèmes et d'évaluation de leurs performances font l'objet de recherches sur les prévisions.

JMP Foreword


Restons en contact !

J'autorise JMP à m'envoyer par e-mail des informations concernant les nouveautés, événements ou offres promotionnelles. Je peux retirer mon consentement à tout moment.

*
*

JMP est une division de SAS Institute Inc., vos informations seront utilisées en accord avec la politique de confidentialité de SAS.