Automated Data Science en Dagstuhl


Durante toda una semana, 38 profesionales de 12 países distintos nos recluimos en el Schloss Dagstuhl, uno de los centros de investigación y desarrollo de software más importantes de Europa, para compartir experiencias y aprender las mejores técnicas para automatizar el proceso de análisis avanzado de datos.

Desde la preparación y limpieza de los datos hasta la explicación verbal y efectiva de los resultados, combinando el máximo grado de automatismo con la mínima e imprescindible participación del experto humano.

¿Qué es Schloss Dagstuhl?

La historia del Schloss Dagstuhl (o Castillo de Dagstuhl) comienza en 1760, cuando la entonces princesa regente Count Anton von Öttingen-Soetern-Hohenbaldern lo construyó como su residencia familiar, en forma de casa señorial al pie de las ruinas del antiguo castillo de Dagstuhl.

Hoy el Schloss Dagstuhl – Leibniz Center for Informatics es uno de los centros de reunión para la investigación informática más prestigiosos del mundo, especialmente por sus innovadores seminarios.

Grandes retos ...

Sólo hicieron falta 10 minutos para darme cuenta de lo enormemente productiva y valiosa que iba a ser esta semana. Fue cuando se presentaron los retos que se pretendían cubrir, cada uno de los cuales iba a representar una grandísima oportunidad de mejora para AutoDiscovery como por ejemplo:

  • Pre-procesado automático de datos: ¿hasta dónde es posible?

  • Identificación automática de tipos de datos: ¿cómo mejora esto a la elección de cálculos posteriores?

  • Configuración óptima del software: ¿es posible reducir la configuración a cero?

  • Explicación automática de resultados: ¿es realmente útil para mejorar la confianza en el software ? ¿o quizás esa transparencia genera más problemas?

  • Interacción óptima con el usuario: ¿dónde, cuándo y por qué es necesaria la participación del usuario experto en la materia?

Nuestra aportación

Uno de los puntos más interesantes de estos seminarios es la participación activa que tienen las startups como nosotros y otras empresas del sector (como KNIME o SICOS), no tanto para la promoción comercial de sus productos sino para ponerlos como ejemplos prácticos y tangibles del valor de la transferencia tecnológica al mercado.

En este sentido, hice la demostración técnica de AutoDiscovery aplicado a melanoma uveal en la que podía observarse cómo nuestro software integra ya buena parte de las innovaciones en automatización del análisis de datos para una aplicación tan concreta como la investigación biomédica.

¡El feedback en charlas posteriores fue muy valioso!

Pero sobre todo fue un placer dejar plasmado, de mi puño y letra como viene haciéndose desde siempre, el abstract de esta demo en los maravillosos libros de Dagstuhl.

Lo que sacamos de provecho ...

Si algo caracteriza a estos eventos en Dagstuhl es una eficiente combinación de informalidad, dinamismo y creatividad. Por ejemplo: los contenidos fueron creados por todos los asistentes días antes a través de una wiki compartida y durante las sesiones siempre hubo espacios de reorganización dinámica en función de lo que nos parecía más o menos interesante en ese momento.

Todo esto generó un entorno de confianza óptima que, a su vez, se transformó en una altísima productividad.

Hablando en términos prácticos, en solo una semana hemos podido establecer las bases de potenciales colaboraciones para iniciar el desarrollo de una variedad de funcionalidades en AutoDiscovery que están completamente alineadas con su objetivo de siempre: automatizar el proceso de descubrimiento y hacerlo aún más eficiente.

Entre estas oportunidades me gustaría destacar las siguientes:

Limpieza automática de datos: Monte Carlo Tree Search for Algorithm Configuration (MOSAIC)

Bajo este título tan técnico se esconde la principal línea de investigación de la Dra. Michèle Sebag (Universidad Paris-Sud) y que podría ayudar muchísimo en la limpieza automática de los datos de entrada de AutoDiscovery que, como sabemos, es uno de los principales escollos de cualquier proceso de análisis de datos.

Para los más atrevidos os dejo el acceso al código abierto de este proyecto en GitHub.

Elección automática de cálculos estadísticos: Data Type Discovery

Como ya sabes, AutoDiscovery es capaz de seleccionar automáticamente el método estadístico más apropiado en cada caso pero, ¿y si fuese capaz de refinar aún más ese proceso gracias a la detección automática de los diferentes tipos de datos que pueden encontrarse en una tabla?

Los trabajos de Rich Caruana / Chris Williams (The Alan Turing Institute) y de Isabel Valera (Max Planck Institute for Intelligent Systems) serán muy provechosos en este sentido.

Explotación de los resultados: Explainability

Sin duda, este fue uno de los conceptos más potentes de estas sesiones. ¿Hasta qué punto es necesario explicar los resultados que produce un software de análisis de datos? ¿En qué términos se debe hacer para que la explicación sea realmente efectiva?

Estamos trabajando en esto en AutoDiscovery y pronto tendrás noticias… :)

Bis bald, Dagstuhl!

Te puedo asegurar que esta experiencia me ha convertido en un fan de los seminarios de Dagstuhl. Para los que nos movemos en esta órbita su agenda es simplemente espectacular.

Y para terminar, quería agradecer personal y públicamente a los organizadores por su eficiencia y, especialmente, su colaboración para facilitar mi presencia y la de Butler Scientifics en este evento.

Bis bald, Dagstuhl!