
Este evento ha pasado.
Defensa Tesis Licenciatura Felipe Mateo Curti
20 diciembre, 2024 @ 1:45 pm - 2:45 pm
Título: Reconocimiento de emociones utilizando modelos de lenguaje de habla
Director: Pablo Riera
Jurados: Esteban Feuerstein, María Lara Gauder
Resumen
En este trabajo se propone el uso de modelos de lenguaje de habla del proyecto Textless NLP de Meta para la tarea de reconocimiento de emociones a partir de información del habla, utilizándolos tanto para la generación de features para algoritmos de machine learning clásicos, como generadores de embeddings para modelos de deep learning.
El modelo utilizado, llamado PGSLM (Prosody-Aware Generative Spoken Language Modeling) consiste de 3 componentes: un encoder que, basándose en HuBERT, genera a partir de un audio una secuencia de unidades discretas junto con su información prosódica, un modelo generativo de lenguaje, que predice de manera auto-regresiva la próxima unidad y su prosodia y un decoder que genera una waveform desde las unidades de habla.
Se evalúan los resultados usando la base de datos de emociones IEMOCAP comparándolos con los obtenidos entrenando de manera similar un modelo con HuBERT y WavLM como generadores de features.
Los resultados obtenidos muestran que si bien PGSLM tiene la capacidad de codificar información emocional de los audios, en los experimentos realizados se observó una performance menor debido a un mayor sobreajuste comparando con los otros modelos.
El modelo utilizado, llamado PGSLM (Prosody-Aware Generative Spoken Language Modeling) consiste de 3 componentes: un encoder que, basándose en HuBERT, genera a partir de un audio una secuencia de unidades discretas junto con su información prosódica, un modelo generativo de lenguaje, que predice de manera auto-regresiva la próxima unidad y su prosodia y un decoder que genera una waveform desde las unidades de habla.
Se evalúan los resultados usando la base de datos de emociones IEMOCAP comparándolos con los obtenidos entrenando de manera similar un modelo con HuBERT y WavLM como generadores de features.
Los resultados obtenidos muestran que si bien PGSLM tiene la capacidad de codificar información emocional de los audios, en los experimentos realizados se observó una performance menor debido a un mayor sobreajuste comparando con los otros modelos.