
Defensa Tesis Doctorado Damina Furman
junio 4 @ 10:00 am - 12:00 pm
Título: Generación automática de contra-narrativas utilizando información argumentativa para combatir mensajes de odio.
Directoras: M. Vanina Martinez, Laura Alonso Alemany
Director adjunto: Ricardo O. Rodriguez
Consejero de estudios: Fernando Schapachnik
Jurados:
Dr. Ing. Luis Chiruzzo, Universidad de la Republica, Montevideo, Uruguay
Dra. Diana I. Perez, Universidad de Buenos Aires, Argentina
Dr. Axel Soto, Universidad del Sur & Conicet, Argentina
Link Youtube: https://youtube.com/
Resumen:
En el siguiente trabajo elaboramos un dataset de tweets de odio anotados con componentes argumentativos generales y específicos del dominio y con tipos distintos de contranarrativas definidas según estrategias basadas en estos componentes, con el objetivo de utilizarlos para mejorar el rendimiento de distintos modelos de lenguaje en la tarea de generación automática de contra-narrativas para combatir la xenofobia.
Mostramos que se puede obtener un nivel aceptable de acuerdo entre anotadores, a pesar de la naturaleza subjetiva de la tarea, al utilizar un manual de anotación definido a través de un proceso iterativo que involucra a los anotadores y que los componentes argumentativos propuestos pueden ser identificados, luego, de manera automática con un rendimiento satisfactorio.
Estudiamos y desarrollamos las falencias que tienen las métricas utilizadas para realizar evaluaciones automáticas de generación de texto en la tarea de generación de contra-narrativas, tanto aquellas basadas en superposición de n-gramas como aquellas basadas en comparación de embeddings y proponemos categorías de evaluación que permiten definir una metodología para asignar puntajes numéricos a las contranarrativas a la vez que se explicitan las características deseables que deben tener y definen qué significa que una contra-narrativa sea aceptable o buena.
Con esta herramienta realizamos una evaluación con anotadores humanos a través de la cual concluimos que para la familia de modelos Flan-T5 el factor que aumenta en mayor medida el rendimiento de los modelos es el ajuste fino a un conjunto de datos de calidad, en comparación a aumentar el tamaño del modelo o incluso a utilizar la información argumentativa. La información argumentativa no mejora el rendimiento de los modelos de manera significativa con la excepción de aquellos que se ajustan utilizando un solo tipo de contranarrativa y la información argumentativa en la que basan su estrategia.
Finalmente, utilizamos la evaluación humana para entrenar modelos para realizar evaluaciones automáticas y evaluamos así la generación realizada por distintos Grandes Modelos de Lenguaje con múltiples configuraciones de generación.