Cargando Eventos

Título: Detección de epidemias en textos periodísticos escritos en español
Directora: Viviana Cotik
Jurados: Vanina Martínez y Agustín Gravano

Resumen:
Existen diversas enfermedades que se encuentran presentes tanto en el mundo como en Latinoamérica, siendo algunas de ellas: Chagas, dengue, Guillain-barré, Zika, microcefalia, sarampión y hantavirus. La disponibilidad de información sobre las mismas, como ser la cantidad de casos y la ubicación geográfica en que se manifiestan, es crucial para estudiar cómo se propagan y para contar con más herramientas que permitan tomar medidas para disminuir su incidencia.

Para poder extraer información sobre epidemias en desarrollo en Latinoamérica necesitamos contar con los recursos apropiados. Debido a la falta de corpora en español sobre el dominio de brotes de enfermedades, creamos un corpus anotado para la detección de
entidades nombradas y relaciones, basado en artículos periodísticos de ProMED-mail. Por un lado, trabajamos con los artículos enteros y, por otro, solo con los títulos de los mismos. Se implementó el K de Cohen para evaluar la consistencia entre las anotaciones, obteniendo un resultado de 0.53.

Implementamos dos algoritmos para la detección de entidades nombradas: uno basado en reglas y otro de redes neuronales profundas basado en la propuesta Flair, que utiliza una red bidirectional long-short term memory (Bi-LSTM) con Conditional Random Fields
(CRF). El corpus anotado se utilizó para testear ambos algoritmos y para entrenar el de redes neuronales. Para la evaluación, se implementó un F1-score (match exacto y parcial), obteniendo los mejores resultados con el algoritmo de redes (tanto micro-averaged como para la mayor parte de las entidades).

Por último, se implementó un baseline para la extracción de relaciones basado en la coocurrencia de entidades nombradas, permitiéndonos establecer vínculos entre las mismas. Para evaluar su desempeño, se implementó un F1-score match exacto.