
Defensa Tesis Licenciatura Javier Petri
abril 11 @ 11:30 am - 12:30 pm
Título: Extracción de información de Historias Clínicas Electrónicas escritas en español para realizar inteligencia epidémica
Directora: Viviana Cotik
Co-Directora: Pilar Bárcena Barbeira
Jurados: Martina Pesce, Juan Manuel Pérez
Resumen:
Las historias clínicas son una herramienta fundamental para la atención médica. La creciente adopción de las historias clínicas electrónicas facilita la extracción automática de datos para realizar análisis que permitan detectar brotes de enfermedades de forma temprana y tomar decisiones basadas en datos, contribuyendo así a la vigilancia basada en eventos.
Esta tesis aborda dos tareas principales: la detección automática de síntomas asociados a cinco síndromes de interés —síndrome febril agudo inespecífico, COVID-19, diarrea, neumonía y enfermedad tipo influenza— y la clasificación de historias clínicas en cuanto a la presencia, sospecha o ausencia de COVID-19. Para lograr estos objetivos, se utilizaron corpus de historias clínicas electrónicas escritas en español provenientes del sistema de salud argentino, previamente anotadas por expertos, así como métodos avanzados del procesamiento del lenguaje natural.
Para la primer tarea utilizamos 6.228 historias clínicas etiquetadas y aproximadamente 1 millón de historias clínicas no etiquetadas. Nuestro enfoque consistió en ajustar (i.e. realizar el fine-tuning) modelos de reconocimiento de entidades nombradas del estado del arte, incluyendo BiLSTM-CRF y modelos basados en transformers de la familia de BERT y RoBERTa. Nos enfocamos en modelos orientados al dominio y a la tarea para mejorar el rendimiento: los primeros fueron pre-entrenados en corpus biomédicos, mientras que los últimos fueron pre-entrenados adicionalmente en nuestras historias clínicas no etiquetadas. A pesar de las limitaciones computacionales con las que contamos para entrenar nuestros modelos, estos demostraron resultados prometedores. En particular, RoBERTa-Clinico, un transformer preentrenado en nuestro corpus no etiquetado, alcanzó el mejor rendimiento con un micro recall de 79.30 y un micro F1-score de 70.83, resultados comparables a los reportados en estudios similares.
Para la tarea de clasificación, se utilizaron 4.996 historias clínicas etiquetadas y se implementaron modelos basados en transformers de la familia BERT y RoBERTa, adaptados al español y al dominio clínico. Los resultados de estos modelos se compararon con los obtenidos previamente por un proyecto anterior que incluyó la implementación de algoritmos clásicos de aprendizaje automático como la regresión logística. Los modelos basados en transformers, al igual que en la tarea de detección de síntomas, fueron preentrenados en grandes corpus de texto biomédico y luego ajustados con nuestro conjunto de datos sin etiquetar. Uno de esos modelos, BETO Clínico, una variante de BERT para el español, ajustado posteriormente con nuestros datos, alcanzó un micro F1 del 88.1%, superando por un margen pequeño pero significativo el 85.1% obtenido por regresión logística, siendo este el mejor de los modelos más sencillos.