Hacer pronósticos en la era del IoT
por Galit Shmueli, National Tsing Hua University
Predecir los valores futuros de una serie de tiempo es un método de análisis de datos usado intensivamente desde siempre en la industria y los negocios. Desde la previsión de las futuras ventas trimestrales, pasando por la demanda mensual, hasta la planificación de la capacidad, los pronósticos han desempeñado un papel en varios departamentos empresariales con fines como la planificación y la evaluación de las operaciones. En el actual mundo del big data, los pronósticos se extienden a muchas áreas nuevas, con nuevos usos, retos y oportunidades.
"Big data" en una serie de tiempo se refiere a un conjunto grande de series. Por ejemplo, miles de dispositivos medidores de calidad del aire o eficacia energética generan un conjunto grande de series de tiempo. Este tipo de datos sobre series de tiempo abunda hoy en día gracias a los nuevos sistemas de recolección de datos, la transferencia rápida de los mismos y el almacenamiento masivo asequible: desde smartphones que recopilan información sobre nuestro comportamiento, al Internet de las Cosas (IoT por sus siglas en inglés). Hay dispositivos inteligentes incrustados en entornos del día a día conectados a internet, como los de hogar inteligente (termostatos, cafeteras, robots aspiradores), prendas inteligentes (pulseras o zapatillas) o juguetes, además de sensores de calidad del aire, del tráfico y muchos más. Algunas empresas tienen abundantes series de tiempo obtenidas de sensores que recopilan datos como temperatura, humedad, velocidad del viento en turbinas eólicas o movimiento y fallos de operación en procesos de fabricación.
A diferencia del análisis de series de tiempo, donde el objetivo es identificar los patrones principales de una serie y poner a prueba hipótesis sobre sus parámetros, la elaboración de pronósticos se centra en predecir periodos futuros. Esto implica un enfoque muy distinto en la modelización. Si bien algunos algoritmos de pronóstico como ARIMA se pueden usar tanto para análisis como para predicción, la forma en que se aplican y evalúan es distinta. Elaborar pronósticos también exige considerar las cuestiones prácticas de disponibilidad de los datos en el momento de implementación, la velocidad de implementación necesaria, el nivel de automatización y cómo se emplearán dichos pronósticos, ya que ellos mismos suelen desencadenar ciertas acciones.
Aunque el volumen de datos de series de tiempo va en aumento, suele darse el caso de que solo se necesita una pequeña porción del mismo para predecir valores de interés o distinguir patrones útiles en estos datos. Muchas nuevas fuentes de "big data" sobre series de tiempo suelen ofrecer una mayor frecuencia. En lugar de trimestrales, mensuales o semanales, ahora pueden encontrarse series al minuto o incluso al segundo. Sin embargo, los datos de serie de tiempo necesarios para elaborar pronósticos útiles o determinar patrones puede ser relativamente escasos. Por ejemplo, a la hora de explorar los datos de sensores de un proceso de fabricación y anticipar fallos de operación, probablemente empezaría con una muestra y experimentaría con distintas periodicidades (minutos, horas, días, etc.) si los datos se recopilan en tales incrementos.
La omnipresencia de los dispositivos de IoT ha llevado a volúmenes de datos de serie de tiempo muy grandes en diversas áreas donde las predicciones pueden ser extremadamente útiles para la acción, planificación y evaluación.
Impartiendo clases sobre elaboración de pronósticos durante los últimos 15 años en EE. UU., India, Taiwán y en línea, he podido ver de primera mano cómo han ido surgiendo los nuevos datos de serie de tiempo, y cómo han empezado las empresas a dar nuevos usos a estos pronósticos. Mis alumnos trabajan en equipo sobre problemas comerciales reales en colaboración con empresas, desde grandes firmas internacionales a startups del sector servicios y economía compartida. Mientras que los primeros proyectos se centraban en predecir un puñado de datos de ventas mensuales o trimestrales, los de estos últimos años se han pasado a los grandes conjuntos de series de tiempo, con mayores frecuencias de datos, tasas de refresco y nuevos tipos de datos. Algunos ejemplos son pronósticos sobre:
• La ocupación al día siguiente en cada sede de una cadena de restaurantes.
• El tráfico diario en páginas de Facebook.
• La demanda de clientes de cientos de paquetes de bebidas personalizados.
• La demanda mensual de cientos de partes de automoción distintas.
• El volumen diario de informes de errores de usuario en una academia de formación en línea.
• La disponibilidad horaria de plazas en cada aparcamiento de una empresa taiwanesa.
• El uso/tráfico peatonal en cada uno de los múltiples aeropuertos, vuelos, reservas de taxi compartidas y bicicletas.
Otro indicador de los cambios de tipo y volumen de datos puede verse en la M-Competition, una competición sobre pronósticos de series de tiempo en marcha desde 1982, dirigida por el investigador en predicción Spyros Makridakis y que pretende evaluar y comparar la precisión de distintos métodos de pronóstico. Si la edición de 1993 tuvo 29 series mensuales, la de 2020 contaba con 100 000 series de tiempo jerárquicas de Walmart, partiendo del nivel de códigos de artículo.
¿Cómo se emplean los algoritmos de pronóstico en estas aplicaciones? Comparados con el caso de tener una o algunas series de tiempo y generar una sola predicción, ahora necesitamos algoritmos de pronóstico que puedan ejecutarse con eficacia y eficiencia sobre conjuntos grandes de series de tiempo de forma continuada (para actualizar las predicciones a menudo). Los algoritmos rápidos y flexibles (como los métodos de suavización exponencial o los modelos de regresión lineal) son muy útiles. Además, la eficiencia requiere de un software lo bastante potente como para ejecutar múltiples algoritmos de pronóstico sobre muchas series, además de poder automatizar el proceso para que pueda volver a ejecutarse y actualizar los pronósticos ante la llegada de nuevos datos. JMP ofrece dichas funciones; implementa un amplio abanico de algoritmos de suavización exponencial que pueden ajustarse a conjuntos grandes de series de tiempo, escogiendo el "mejor" modelo para cada una.
En conclusión: la elaboración de pronósticos se ha generalizado en los negocios y la industria, desde los productos a los servicios, desde empresas grandes hasta startups. La omnipresencia de los dispositivos de IoT ha llevado a volúmenes de datos de serie de tiempo muy grandes en diversas áreas donde los pronósticos pueden ser extremadamente útiles para la acción, planificación y evaluación. Los pronósticos sobre big data de hoy en día suelen requerir la elaboración de pronósticos rápidos para muchas series de manera continuada. Las series de tiempo pueden contener información adicional, por ejemplo información multisectorial o jerárquica. Los métodos para obtener pronósticos para dichos sistemas y evaluar su rendimiento son objeto de estudio de la investigación sobre pronósticos.
Prólogo de JMP
¡Sigamos en contacto!
Pueden ponerse en contacto conmigo por correo electrónico para informarme sobre noticias, eventos y ofertas de JMP. Entiendo que puedo retirar mi consentimiento en cualquier momento.