
Defensa Tesis Licenciatura Manuel Costa
mayo 22 @ 10:30 am - 11:30 am
Título: Word-embeddings contextualizados para detección de entidades nombradas en textos de radiología en español
Directora: Viviana Cotik
Jurados: María Teresa Martín Valdivia, Pablo Brusco
Resumen:
La creciente digitalización de los procesos médicos ha generado una gran cantidad de datos textuales, como informes de estudios clínicos, que permiten mejorar procesos a través de la automatización de la extracción de información. Sin embargo, esta última presenta desafíos significativos, especialmente en español, debido a la escasez de recursos en este idioma y al uso de vocabulario especializado. Además, algunos de estos textos suelen contener abreviaturas, errores ortográficos y de tipeo, lo que agrega una complejidad adicional. Este trabajo busca contribuir al campo del Procesamiento del Lenguaje Natural Biomédico (BioNLP, por sus siglas en inglés) mediante el desarrollo de mejores representaciones de textos que optimicen la extracción de información en informes clínicos escritos en español.
En esta tesis se desarrolla un estudio sobre el uso de word embeddings y modelos de lenguaje para informes de ecografía escritos en español. Se proponen y evalúan diferentes modelos de embeddings, incluyendo técnicas estáticas como FastText y modelos basados en arquitecturas contextuales como Transformers y BiLSTM. Los embeddings se entrenaron utilizando un corpus anonimizado de más de 80 mil informes de ecografías. Se realizaron dos tipos de evaluaciones sobre los embeddings: una extrínseca y una intrínseca. Para la evaluación extrínseca se utilizó la tarea de reconocimiento de entidades nombradas con el conjunto de datos de la competencia SpRadIE. Además, se realiza un estudio de ablación para intentar establecer un vínculo más directo entre el uso de las representaciones y el rendimiento obtenido por los modelos. Para la evaluación intrínseca, se presenta un marco basado en análisis cualitativo para medir la calidad de los embeddings en dominios donde no existen benchmarks estandarizados.
Los resultados obtenidos muestran mejoras sobre el estado del arte para la tarea de reconocimiento de entidades nombradas de SpRadIE, destacando el impacto de usar representaciones contextuales adaptadas al subdominio específico de la tarea. Observamos que los mejores resultados del reconocimiento de entidades nombradas se obtienen con modelos basados en Transformers; sin embargo, las representaciones generadas a partir de BiLSTM parecen capturar información semántica más rica, como evidencian los estudios de ablación y el análisis cualitativo.
Palabras clave: embeddings, reconocimiento de entidades nombradas, BioNLP en español, informes clínicos, ecografías, transformers, BiLSTM, FastText