Sergio Yovine es profesor e investigador de la Facultad de Ingeniería de la Universidad ORT Uruguay (Montevideo), así como también Coordinador Académico de Big Data e Inteligencia Artificial. Y fue profesor adjunto e investigador del Departamento de Computación (DC) entre 2009 y 2016.

Yovine se recibió de Licenciado en Informática en la Escuela Superior Latinoamericana de Informática (ESLAI, Argentina, 1989) y de Doctor en Informática en el Instituto Politécnico de Grenoble (Francia, 1993). Fue investigador de la Universidad de California (Berkeley) y del Centre National de Recherche Scientifique (CNRS, Francia). En 2012 recibió conjuntamente con Henzinger, Nicollin y Sifakis el Premio LICS Test Of Time Award, por su artículo sobre verificación formal de sistemas de tiempo real (publicado en 1992).  

Cabe recalcar que sus áreas de investigación son diversas e interconectadas entre sí. Comenzó a interesarse por la verificación formal y análisis de programas, luego trabajó sostenidamente en analizar propiedades cuantitativas de software, de modelos y lenguajes para programación paralela y, en los años más recientes, se volcó a investigar sobre modelos de aprendizaje automático y lenguajes formales. Como dato anecdótico, su carrera transcurre entre cuatro países: Uruguay, Argentina, Francia y Estados Unidos.

En esta entrevista, que forma parte de nuestras conversaciones con ex docentes del DC, nos cuenta cómo resultó su paso por el Departamento y en qué consiste su labor actual en la ORT de Uruguay.

¿Cómo fue tu experiencia de investigador y profesor en el Departamento de Computación?

Fue una etapa muy buena, súper productiva. Mi primer contacto con el DC había sido cuando hice la carrera en la ESLAI (Escuela Superior Latinoamericana de Informática), luego emigré a hacer mi doctorado en Grenoble, Francia e incorporarme como investigador del CNRS. En 2009 tuve la posibilidad de volver a Argentina, gracias al programa de repatriación RAÍCES.  Mi vínculo con el DC fue a través de Víctor Braberman y Diego Garbervetsky, con quienes cooperamos en distintos proyectos de investigación.

¿Qué proyectos te motivaron a incorporarte al DC?

Uno de los proyectos que más me interesó, diría que resultó el hilo conductor de mi trabajo, fue la conformación del Laboratorio Internacional Asociado (ver noticia de Exactas) a fines del año 2011, por su fuerte vinculación internacional entre investigadores de Francia y Argentina.

El LIA Infinis (Informática Fundamental, Lógica, Lenguajes, Verificación y Sistemas) fue el resultado de un convenio entre el CNRS, la Universidad Paris 7 y la UBA, y funcionó físicamente en el DC. Todo ello en el marco de la cooperación binacional, ya que el acuerdo fue avalado por el Ministerio de Ciencia y Tecnología y por la Embajada Francesa en Argentina. Realmente hubo y hay muy pocos laboratorios con esta tipología mixta en el mundo.

Primero surgió el contacto con Alfredo Olivero, que se fue después que yo a Francia y ya lo conocía de la ESLAI. Luego también con Víctor Braberman y Diego Garbervetsky, y después de algunos proyectos binacionales arrancamos con la idea de generar el LIA Infinis, que finalmente se terminó concretando cuando se sumó la reconocida investigadora Delia Kesner. Creo que lo destacado de esos primeros cuatro años, del 2011 al 2015, fue que se consolidaron los distintos grupos de investigación, con un crecimiento notable en el plantel de investigadores y becarios, y que contaron con financiamiento de parte de Argentina.

Para mí fue un hito importantísimo, tanto en lo académico como a nivel humano, por el gran trabajo en equipo, cooperación conjunta, y el hecho de poder aportar mi granito de arena para que estudiantes jóvenes pudieran viajar a Francia a formarse o aprender nuevas técnicas y participar en temas innovadores.

Otro proyecto fue el de Computación Móvil, que arrancó en 2013, tanto el laboratorio como la materia que dictamos en el DC con Gervasio Pérez. Este proyecto estaba orientado a ejecutar y testear dispositivos móviles interconectados en forma paralela, poder aprender de esa ejecución y hacer experimentos de ese proceso en tiempo real. Nos vinculamos con la empresa Blackberry (que en ese momento había comprado a otra empresa que tenía un software de sistema operativo en tiempo real) que financió pasantías y donó equipos. Y sumamos a Matías Laporte, Santiago Álvarez y Patricio Inzaghi, que fueron muy buenos estudiantes. La verdad que fue un proyecto ambicioso que no tuvo la visibilidad que merecía, por lo que quedó un poco trunco. Y además nos jugó en contra que, en general en ese momento, la vinculación academia-empresa en los proyectos de investigación no era tan aceptada.

Por último, menciono la organización de la Escuela de Ciencias Informáticas, ECI 2012, que para mí fue un desafío muy interesante  y de trabajo colectivo con el DC. Creo que la ECI es un evento de nivel internacional, muy valorado y reconocido en el DC. Y en la última edición (2023) concurrí con todo mi equipo de Uruguay, que volvió muy motivado por todo el aprendizaje obtenido.

Claramente tus líneas de investigación tendían un puente entre el LIA Infinis y el LAFHIS (Laboratorio de Fundamentos y Herramientas para la Ingeniería de Software) o sea entre temas teóricos de fundamentos, lenguajes formales con la ingeniería de software de por medio…

Sí, inicialmente mi investigación era más teórica sobre modelos y desarrollos de algoritmos de verificación de programas pero con la idea de integrarla a aspectos puntuales de los lenguajes de programación y de la ingeniería de software, sobre todo con Víctor (Braberman), Diego (Garbervetsky) y Sebastián (Uchitel) quienes son algunos de los investigadores consolidados que trabajan formalmente en esta área. Y el otro eje, tal como comenté, fue la Computación móvil con foco en la paralelización de software.

Actualmente además de profesor e investigador, sos Coordinador Académico de Big Data e IA en la Facultad de Ingeniería de la Universidad ORT de Uruguay. ¿Podrías contar un poco de qué se trata ese rol?

Así es, en 2017 me ofrecieron sumarme a la Universidad ORT Uruguay como profesor e investigador. Este puesto para mí implicó un giro importante, porque en los últimos años venía interesándome por proyectos de Machine Learning y la ORT propuso crear un Diploma en Analítica de Big Data e Inteligencia Artificial (equivalente a lo que son las diplomaturas o especializaciones en Argentina), o sea un posgrado breve sin trabajo final, y luego un Master en Big Data, con trabajo final.

Estoy coordinando estos dos posgrados, que tienen una orientación profesional, no académica. Ese es mi proyecto de bandera, e implica mucho trabajo porque para sostenerlo hay que disponer de un equipo docente, con recursos humanos formados y mucha dedicación. Se necesitan docentes que puedan cumplir todas las horas de dictado, y no siempre se encuentran en esta área, y además cuento con la colaboración de tres a cinco estudiantes que recién empezaron su carrera de Master, más un estudiante de doctorado y un doctor en matemáticas.

Para estos posgrados, más las carreras de grado, tenemos más de 40 dictados anuales en IA y Big Data: acá un dictado equivale a una comisión o sea que una materia tiene varios dictados, se dicta varias veces en la semana (según el horario y la etapa del año), eso implica tener unos 40 docentes por año. Y hay entre 200 y 250 estudiantes por semestre cursando materias de mi cátedra. 

En cuanto a los proyectos de investigación, ¿podrías contar sobre qué estás trabajando y cómo fue transitar de la verificación de sistemas al aprendizaje automático?

A través de la ANII, que es la Agencia Nacional de Investigación e Innovación de Uruguay, presentamos diferentes proyectos y todo el tiempo tenemos proyectos en curso financiados. Además seguimos colaborando con investigadores en ingeniería de software del DC/ICC, en un proyecto sobre la integración de técnicas de síntesis de controladores y de aprendizaje de lenguajes formales para la verificación de sistemas de inteligencia artificial. Y viajo bastante seguido a Buenos Aires.

El foco de los proyectos es IA con Machine Learning (ML) y lo más cercano a métodos formales y verificación de software es trabajar sobre autómatas, secuencias, que ahora tuvieron cierto “revival” (por así decirlo) debido al auge de los Large Language Models (LLMs). Porque en definitiva estos grandes modelos de lenguaje, si bien son esenciales para el procesamiento del lenguaje natural,  están vinculados con los lenguajes formales. De hecho mucha gente que viene de la lingüística se empezó a interesar por los aspectos computacionales y la inteligencia artificial, mucho más de fondo, y eso generó un nuevo acercamiento, un trabajo interdisciplinario muy rico.

Una primera aplicación a los proyectos es usar técnicas de ML para verificar ataques en la accesibilidad a la Web. Para desarrollar este proyecto nos vinculamos con la AGESIC, que es la Agencia de Gobierno y Sociedad de la Información y el Conocimiento de Uruguay, que tiene agendas muy fuertes de IA, Datos y ha ordenado mucho el tema de la Ciberseguridad. Si bien les pareció muy interesante nuestra propuesta, nos respondieron que los datos que administraban y monitoreaban no eran propiedad de ellos, sino que habría que ver si esos datos se podían anonimizar por temas de privacidad.

Entonces la idea fue tratar de combinar ML con privacidad diferencial de los datos. A partir de eso, evaluando y proponiendo un modelo de ML que funciona de manera consistente a nivel teórico, apuntamos a evaluar esos datos de acceso a servicios web, servicios de firewall y monitoreo. Y a detectar vulnerabilidades o incidencias tomando los logs, ya que de esa forma se puede inferir o aprender qué es un ataque y qué no es. Todo esto se puede ir refinando y mejorar las reglas para que haya menos falsos positivos.

Y después una aplicación concreta que podría ser de utilidad, pero es mucho más sensible, es en el ámbito de la salud, el de la historia clínica electrónica, para centralizar y estructurar esos datos. En la legislación nacional, por supuesto, está presente la protección de esos datos privados de las historias clínicas pero aún no está implementado en la práctica y en el desarrollo de sistemas que tengan en cuenta esos datos. Y el Covid-19 nos dejó bastante clara la problemática, por la necesidad de tener más datos y estadísticas de salud actualizadas, de calidad.

Por último, también tenemos un proyecto de nuestros estudiantes e investigadores, apoyado por una ONG, para desarrollar modelos de ML que puedan reescribir titulares de noticias que contengan sesgos de género (en particular sobre femicidios). Esto sucede porque en general los titulares de los diarios pueden ser sesgados, más allá de su sensacionalismo, y se trata de detectar el sesgo en los titulares, no en la noticia completa, que es lo que genera mayor impacto a simple vista en los lectores. Por ese motivo, estamos buscando hacer un Fine Tuning de los modelos para lograr que escriba algo que elimine lo más posible el sesgo, un texto que no sea discriminatorio y sea de calidad por así decirlo.

¿Qué es la “privacidad diferencial”, cómo se relaciona con los datos y cuál es su desafío para este tipo de proyectos?

La privacidad diferencial implica poder extraer conclusiones de un grupo en una base de datos a pesar de mantener la privacidad de los datos de cada individuo del grupo, aunque no se conozca a los individuos exactamente. Por ejemplo, saber cuántos individuos estaban enfermos o en una población de riesgo y de qué grupo. Además de la anonimización de los datos, se trata de modificar aleatoriamente los datos, un número aleatorio estimado, para encontrar un compromiso entre la privacidad que se pueda llegar a fugar y la utilidad del dato.

En lo que es IA, con los LLMs hay mucho más trabajo, pero también el problema es que hay poco control sobre las respuestas que son verdaderas o falsas, en los asistentes de IA. En el caso de ChatGPT está este uso diferenciado de tunearlo para hacer algo específico de valor: responder preguntas sobre una base de datos que yo previamente provea a la aplicación, como reglamentación de la universidad, documentación de software o legislación actual en nuestro país, entre otros ejemplos. Y el desafío es lograr que esos datos que se extraen sean de calidad pero a su vez estén disponibles públicamente. Lo complejo es que no haya información privada o sensible de los usuarios, porque además en los chatbots la gente puede hacer preguntas con datos que sean privados o sensibles. Y eso realmente no se puede anticipar con estas técnicas, al menos en los modelos que conocemos.

Realmente son proyectos muy diversos entre sí pero que tienen como columna vertebral al aprendizaje automático…

La verdad que todo lo que es inteligencia artificial y software involucra temas tan dinámicos que todo el tiempo necesitamos estar actualizados y convocar a grupos de personas -ya sean estudiantes, docentes e investigadores- a las que realmente les guste el desafío y colaborar en equipos cada vez más multidisciplinarios.