
BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//Departamento de Computación - ECPv6.15.18//NONSGML v1.0//EN
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-ORIGINAL-URL:https://www.dc.uba.ar
X-WR-CALDESC:Eventos para Departamento de Computación
REFRESH-INTERVAL;VALUE=DURATION:PT1H
X-Robots-Tag:noindex
X-PUBLISHED-TTL:PT1H
BEGIN:VTIMEZONE
TZID:America/Sao_Paulo
BEGIN:STANDARD
TZOFFSETFROM:-0300
TZOFFSETTO:-0300
TZNAME:-03
DTSTART:20240101T000000
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
DTSTART;TZID=America/Sao_Paulo:20250522T103000
DTEND;TZID=America/Sao_Paulo:20250522T113000
DTSTAMP:20260426T045925
CREATED:20250519T131349Z
LAST-MODIFIED:20250519T131349Z
UID:9920-1747909800-1747913400@www.dc.uba.ar
SUMMARY:Defensa Tesis Licenciatura Manuel Costa
DESCRIPTION:Título: Word-embeddings contextualizados para detección de entidades nombradas en textos de radiología en español\nDirectora: Viviana Cotik\nJurados: María Teresa Martín Valdivia\, Pablo Brusco \nResumen:\nLa creciente digitalización de los procesos médicos ha generado una gran cantidad de datos textuales\, como informes de estudios clínicos\, que permiten mejorar procesos a través de la automatización de la extracción de información. Sin embargo\, esta última presenta desafíos significativos\, especialmente en español\, debido a la escasez de recursos en este idioma y al uso de vocabulario especializado. Además\, algunos de estos textos suelen contener abreviaturas\, errores ortográficos y de tipeo\, lo que agrega una complejidad adicional. Este trabajo busca contribuir al campo del Procesamiento del Lenguaje Natural Biomédico (BioNLP\, por sus siglas en inglés) mediante el desarrollo de mejores representaciones de textos que optimicen la extracción de información en informes clínicos escritos en español. \nEn esta tesis se desarrolla un estudio sobre el uso de word embeddings y modelos de lenguaje para informes de ecografía escritos en español. Se proponen y evalúan diferentes modelos de embeddings\, incluyendo técnicas estáticas como FastText y modelos basados en arquitecturas contextuales como Transformers y BiLSTM. Los embeddings se entrenaron utilizando un corpus anonimizado de más de 80 mil informes de ecografías. Se realizaron dos tipos de evaluaciones sobre los embeddings: una extrínseca y una intrínseca. Para la evaluación extrínseca se utilizó la tarea de reconocimiento de entidades nombradas con el conjunto de datos de la competencia SpRadIE. Además\, se realiza un estudio de ablación para intentar establecer un vínculo más directo entre el uso de las representaciones y el rendimiento obtenido por los modelos. Para la evaluación intrínseca\, se presenta un marco basado en análisis cualitativo para medir la calidad de los embeddings en dominios donde no existen benchmarks estandarizados. \nLos resultados obtenidos muestran mejoras sobre el estado del arte para la tarea de reconocimiento de entidades nombradas de SpRadIE\, destacando el impacto de usar representaciones contextuales adaptadas al subdominio específico de la tarea. Observamos que los mejores resultados del reconocimiento de entidades nombradas se obtienen con modelos basados en Transformers; sin embargo\, las representaciones generadas a partir de BiLSTM parecen capturar información semántica más rica\, como evidencian los estudios de ablación y el análisis cualitativo. \nPalabras clave: embeddings\, reconocimiento de entidades nombradas\, BioNLP en español\, informes clínicos\, ecografías\, transformers\, BiLSTM\, FastText
URL:https://www.dc.uba.ar/event/defensa-tesis-licenciatura-manuel-costa/
CATEGORIES:Agenda
END:VEVENT
END:VCALENDAR