
Defensa Tesis Licenciatura Jonathan Scherman
2 agosto, 2024 @ 9:00 am - 10:00 am
Título: Inclusión léxica y sintáctica en modelos de etiquetado offline de transiciones de turno
Director: Pablo Brusco
Jurados: Pablo Turjanski, Lautaro Estienne
Resumen
En una conversación hablada entre dos personas, existe una noción implícita de manejo de turnos que permite un intercambio fluido de mensajes. Esto sucede a través de distintos tipos de señales (acústicas, prosódicas, léxicas e incluso gestuales) que los hablantes producen y que, de manera combinada, afectan la manera en la que se desarrollarán los turnos de la conversación. Por ejemplo, se ha estudiado cómo el uso de palabras de relleno (tales como «em…» o «este…») suele indicar que el hablante tiene la intención de mantener el turno. Entender cuál es la dinámica del manejo de turnos y construir sistemas que puedan identificar y clasificar distintas transiciones de manera automática ha ganado mucha relevancia en las últimas décadas debido a las múltiples aplicaciones prácticas en el mundo real, siendo los sistemas de diálogo hablado (como Alexa o Siri) y el análisis de grandes volúmenes de datos sus principales aplicaciones. En particular, varios estudios han mostrado que, en adición a las características acústico-prosódicas, las características léxicas y sintácticas de la conversación contienen información relevante para entender la mecánica del manejo de turnos.
En esta tesis, nos enfocamos en el desarrollo de una herramienta de etiquetado offline de transiciones de turno en conversaciones completas de tipo humano-humano, para lo cual construimos distintas variantes de modelos multimodales sobre un corpus compuesto por conversaciones diádicas orientadas a tareas, en inglés y español. Partimos de un modelo preexistente basado en redes neuronales recurrentes bidireccionales, que extendemos con atributos léxicos y sintácticos. Además, consideramos modelos alternativos basados en arquitecturas multiescala. Para cada uno de los modelos desarrollados, evaluamos la capacidad de generalización en conversaciones tanto en el mismo idioma en el que fueron entrenados como en otros. Los resultados obtenidos muestran que la inclusión de estos atributos otorgó mejoras para algunas de las variantes propuestas de hasta un 15% relativo en el subconjunto de desarrollo y un 9% relativo en el subconjunto de control al ser evaluados en conversaciones nuevas del mismo idioma, mientras que observamos disminuciones en el rendimiento al variar entre idiomas. Por su parte, no pudimos evidenciar mejoras en la propuesta multiescala, aunque creemos que tiene potencial para hacerlo.
Palabras claves: Manejo de Turnos, Diálogo Hablado, Inglés, Español, Aprendizaje Automático, Redes Neuronales, BERT, Atributos Léxicos, Atributos Sintácticos.