
BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//Departamento de Computación - ECPv6.15.18//NONSGML v1.0//EN
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALNAME:Departamento de Computación
X-ORIGINAL-URL:https://www.dc.uba.ar
X-WR-CALDESC:Eventos para Departamento de Computación
REFRESH-INTERVAL;VALUE=DURATION:PT1H
X-Robots-Tag:noindex
X-PUBLISHED-TTL:PT1H
BEGIN:VTIMEZONE
TZID:America/Sao_Paulo
BEGIN:STANDARD
TZOFFSETFROM:-0300
TZOFFSETTO:-0300
TZNAME:-03
DTSTART:20210101T000000
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
DTSTART;TZID=America/Sao_Paulo:20221021T170000
DTEND;TZID=America/Sao_Paulo:20221021T180000
DTSTAMP:20260420T063218
CREATED:20221018T142418Z
LAST-MODIFIED:20221018T142418Z
UID:7860-1666371600-1666375200@www.dc.uba.ar
SUMMARY:Defensa Tesis Licenciatura Gonzalo Sanchez Cano
DESCRIPTION:Título: Adaptación y optimización de BERT multilingüe con bajos recursos al idioma y al dominio\n\nDirectores: Maria Vanina Martinez – Damian Furman\nJurados: Laura Alonso Alemany y Juan Manuel Pérez\n\nResumen: \n\n\n\nBERT es un transformer bidireccional con pre-entrenamiento\, usado para muchas tareas de procesamiento de lenguaje natural. Roberta es una mejora de este modelo\, que logra mejores resultados para varias tareas de lenguaje natural. En ambos modelos existen versiones entrenadas tanto monolingües como multilingües\, es decir entrenadas para un único idioma y para múltiples idiomas.\n\nNuestro objetivo es adaptar las versiones multilingües de estos modelos pre-entrenados a una tarea y un lenguaje específico: la tarea de NLI en el idioma español. A partir de esta adaptación\, queremos corroborar una mejora en la performance del modelo y comparar esta mejora al esfuerzo relativo realizado en términos de recursos y tiempo. Ya sean modelos monolingües o multilingües estos son costosos de entrenar\, y requieren encontrar o construir un corpus muy grande de texto que pertenezca al dominio para poder hacerlo. Nosotros en lugar de entrenar un modelo específico del dominio desde cero\,\npartimos del modelo más abarcativo y más general (uno multilingüe ) y lo adaptamos al dominio\, al lenguaje e incluso al estilo particular de los datos del corpus que vamos a usar. El esfuerzo es relativo al tamaño de este corpus pero es indefectiblemente mucho menor.\nEn nuestro caso\, utilizamos un corpus de NLI para realizar un fine-tuning del modelo multilingüe\, que es de varios órdenes de magnitud menor que los corpus comúnmente utilizados para entrenar un modelo específico desde cero. Mientras que nuestro modelo es fine-tuneado con cerca de 100K ejemplos\, un modelo específico del idioma español como BETO\, fue entrenado con 300 millones. Como podemos observar la relación entre uno y otro entrenamiento es de 3000:1. Por otro lado\, disminuimos los epochs y otros ajustes logrando\ndisminuir aún más el tiempo de procesamiento de este nuevo modelo.
URL:https://www.dc.uba.ar/event/defensa-tesis-licenciatura-gonzalo-sanchez-cano/
LOCATION:Sala 1606
CATEGORIES:Agenda
END:VEVENT
END:VCALENDAR