
Este evento ha pasado.
Defensa Tesis Licenciatura Gonzalo Sanchez Cano
21 octubre, 2022 @ 5:00 pm - 6:00 pm
Título: Adaptación y optimización de BERT multilingüe con bajos recursos al idioma y al dominio
Directores: Maria Vanina Martinez – Damian Furman
Jurados: Laura Alonso Alemany y Juan Manuel Pérez
Jurados: Laura Alonso Alemany y Juan Manuel Pérez
Resumen:
BERT es un transformer bidireccional con pre-entrenamiento, usado para muchas tareas de procesamiento de lenguaje natural. Roberta es una mejora de este modelo, que logra mejores resultados para varias tareas de lenguaje natural. En ambos modelos existen versiones entrenadas tanto monolingües como multilingües, es decir entrenadas para un único idioma y para múltiples idiomas.
Nuestro objetivo es adaptar las versiones multilingües de estos modelos pre-entrenados a una tarea y un lenguaje específico: la tarea de NLI en el idioma español. A partir de esta adaptación, queremos corroborar una mejora en la performance del modelo y comparar esta mejora al esfuerzo relativo realizado en términos de recursos y tiempo. Ya sean modelos monolingües o multilingües estos son costosos de entrenar, y requieren encontrar o construir un corpus muy grande de texto que pertenezca al dominio para poder hacerlo. Nosotros en lugar de entrenar un modelo específico del dominio desde cero,
partimos del modelo más abarcativo y más general (uno multilingüe ) y lo adaptamos al dominio, al lenguaje e incluso al estilo particular de los datos del corpus que vamos a usar. El esfuerzo es relativo al tamaño de este corpus pero es indefectiblemente mucho menor.
En nuestro caso, utilizamos un corpus de NLI para realizar un fine-tuning del modelo multilingüe, que es de varios órdenes de magnitud menor que los corpus comúnmente utilizados para entrenar un modelo específico desde cero. Mientras que nuestro modelo es fine-tuneado con cerca de 100K ejemplos, un modelo específico del idioma español como BETO, fue entrenado con 300 millones. Como podemos observar la relación entre uno y otro entrenamiento es de 3000:1. Por otro lado, disminuimos los epochs y otros ajustes logrando
disminuir aún más el tiempo de procesamiento de este nuevo modelo.
En nuestro caso, utilizamos un corpus de NLI para realizar un fine-tuning del modelo multilingüe, que es de varios órdenes de magnitud menor que los corpus comúnmente utilizados para entrenar un modelo específico desde cero. Mientras que nuestro modelo es fine-tuneado con cerca de 100K ejemplos, un modelo específico del idioma español como BETO, fue entrenado con 300 millones. Como podemos observar la relación entre uno y otro entrenamiento es de 3000:1. Por otro lado, disminuimos los epochs y otros ajustes logrando
disminuir aún más el tiempo de procesamiento de este nuevo modelo.