La ciencia de datos es un deporte de equipo
Escrito por Alyson Wilson, profesora de Estadística y vicerrectora asociada de Seguridad Nacional e Iniciativas Especiales de Investigación en la Universidad Estatal de Carolina del Norte
Los datos están en todas partes. No podemos poner la televisión sin encontrarnos anuncios sobre cómo los datos van a transformar nuestro negocio o a resolver algún misterio biosanitario. Hace una década era habitual escuchar «un científico de datos es alguien que sabe más estadística que un ingeniero de software y más ingeniería de software que un estadístico». Con el tiempo ha surgido una definición más ajustada que se ilustra con el ciclo de vida de la ciencia de datos. La ciencia de datos es el conjunto de habilidades que van desde la generación de datos, su recopilación y procesado, su almacenamiento, su gestión, su análisis, y su visualización e interpretación. Son muchas las disciplinas que intervienen en este conjunto de habilidades, y cuando se aplica ciencia de datos a una pregunta específica de algún dominio, el equipo crece.
Como estadística, me formaron más en habilidades propias del lado derecho de este ciclo de vida. Según salí de la facultad, entré a trabajar en una empresa de cinco personas en El Paso (Texas) que se llamaba Cowboy Programming Resources. La empresa se especializaba en ayudar al ejército a evaluar sistemas de artillería antiaérea nuevos o actualizados. Nuestro objetivo era probar si los soldados podían utilizar los sistemas para cumplir sus misiones. Como estadística, las cuestiones a las que me enfrentaba eran diferentes, y en cierto modo más complejas, que las aplicaciones biomédicas que había investigado en la facultad.
Nos interesaba comprender cómo funcionarían los sistemas antiaéreos en combate, lo que es esencialmente impredecible. La reacción de los soldados y las dinámicas en su unidad afectan al resultado. Casi todo el tiempo me daba la impresión de que tenía demasiados datos y, a la vez, que no tenía suficientes. Nuestros eventos de prueba duraban hasta seis semanas, con 400 soldados en el campo. Si bien teníamos acceso a todos los mensajes de radio enviados entre el batallón, no se podían hacer pruebas realistas de misión para todas las combinaciones de factores y condiciones. Podía ver cada tecla pulsada, pero estábamos simulando nuestro resultado clave: cómo el batallón llevaba a cabo acciones específicas bajo fuego enemigo.
La ciencia de datos es un deporte de equipo. A medida que crece el volumen, la velocidad, la variedad y la veracidad de los datos, la solución a problemas complejos no puede encontrarse de forma aislada.
Determinar el rendimiento de las misiones expandió mi comprensión y mi concepción de la estadística. Siempre había concebido la estadística en un contexto experimental, planteando hipótesis científicas, planificando la recopilación de datos, reuniéndolos, estudiando las pruebas y llegando a conclusiones. Aunque esta concepción seguía vigente, sus fronteras se ensancharon. Quería comprender el rendimiento de las misiones, pero no podía hacer pruebas como tales. Tenía datos, pero no solían ser exactamente sobre lo que intentaba averiguar. Empecé a interesarme por preguntas cuya respuesta requiere encajar muchos tipos de información distintos.
En cierto modo, ya estaba haciendo ciencia de datos veinte años antes de que el término se hiciera popular. Me resulta útil pensar en la ciencia de datos de acuerdo a las cuatro uves: variedad, volumen, velocidad y veracidad. Trabajaba en métodos estadísticos para lidiar con la variedad, con cómo combinar información heterogénea para resolver problemas. En la ciencia de datos, los estadísticos también trabajan sobre el volumen (cómo emplear conjuntos de datos cada vez más grandes), la velocidad (cómo hacer inferencias sobre datos en curso) y la veracidad (cómo usar datos desordenados que pueden surgir de fuentes distintas del problema).
Me doy cuenta de que a menudo trabajo con equipos multidisciplinares para hacer frente a estas preguntas, incorporando sus experiencias particulares para resolver problemas complejos. Como estadística, no sabía de inmediato qué va a implicar una misión del ejército, cómo medir la degradación del equipo o cómo falla un radar. Sin embargo, al trabajar con un equipo multidisciplinar, colaboraba con oficiales del ejército, científicos de materiales e ingenieros que comprendían cómo funcionan estos componentes de la misión.
Después de trabajar con Cowboy Programming, me mudé al Laboratorio Nacional de Los Álamos, donde pasé buena parte del tiempo ayudando a determinar la fiabilidad del arsenal nuclear de los Estados Unidos. Estados Unidos dejó de hacer pruebas nucleares a escala real a mediados de los 90, pero los laboratorios nacionales aún ofrecen estimaciones anuales de la fiabilidad del arsenal. Desde cierto punto de vista, el fin de las pruebas redujo nuestro tamaño muestral a cero, pero desde otra perspectiva teníamos muchísima información: datos del histórico de pruebas, modelos de simulación, pruebas funcionales de componentes, conocimiento experto, pruebas de degradación. Una vez más, se reunió un equipo multidisciplinar para emplear muchas fuentes de información para responder estas preguntas.
Ahora, en la Universidad Estatal de Carolina del Norte, soy la investigadora principal del Laboratorio de Ciencias Analíticas (LAS, por sus siglas en inglés). LAS es una colaboración orientada a misiones entre la academia, la industria y el gobierno que resuelve problemas de interés para el sector de Inteligencia (IC, por sus siglas en inglés). Decimos, medio en broma, que todas las empresas del mundo se preguntan cómo emplear los datos para ganar ventajas estratégicas. Esto, claro, también le interesa al IC. LAS se formó porque el IC se dio cuenta de que muchas de las innovaciones en el campo del big data se daban porque dichas empresas se hacían estas preguntas. En LAS establecemos colaboraciones para reunir la investigación de base de la academia con la experiencia en implementación de la industria y los problemas complejos de la Inteligencia y la Seguridad Nacional. Trabajamos en problemas tan diversos como el triaje de datos, o cómo dar con los registros que necesitas de entre los trillones que puedas tener almacenados; la integridad del machine learning, o cómo mantener flujos de trabajo a escala; y la colaboración hombre-máquina, o cómo hacer que un ordenador sea más un compañero que una herramienta. SAS colabora con LAS desde hace mucho tiempo, y nuestro trabajo actual se centra en automatizar el análisis de corpus de datos con medios heterogéneos con el objetivo de desarrollar un flujo de modelización flexible que pueda ajustarse a las necesidades específicas de los analistas del IC.
Los problemas con los que lidiamos en LAS no se podrían resolver sin una colaboración multidisciplinar. Los participantes atípicos nos ayudan a dar sentido a los datos y a la información relevante para resolver dichos problemas. Por ejemplo, uno de los proyectos de LAS, el «filtro social», identifica cuentas de redes sociales clave en campañas coordinadas de desinformación. Expertos en lingüística, marketing, psicología y estadística ayudaron a crear la interfaz y los algoritmos, que pueden recorrer grandes volúmenes de información en línea para dar con propagandistas de desinformación.
La ciencia de datos es un deporte de equipo. A medida que crece el volumen, la velocidad, la variedad y la veracidad de los datos, la solución a problemas complejos no puede encontrarse de forma aislada. Los equipos multidisciplinares son fundamentales para convertir los datos en información. Como estadísticos, tenemos un papel clave.
Prólogo de JMP
¡Sigamos en contacto!
Pueden ponerse en contacto conmigo por correo electrónico para informarme sobre noticias, eventos y ofertas de JMP. Entiendo que puedo retirar mi consentimiento en cualquier momento.