- Info
Procesamiento del lenguaje natural para el acceso a la información
Calificaciones
- Notas de los alumnos aprobados [ pdf ].
Cualquier consulta respecto a las notas, escriba a eci@dc.uba.ar
Apuntes
Turno:
Noche(19 a 22 hs).
Idioma:
Castellano.
Requisitos:
Nociones de lenguajes regulares y libres de contexto; autómatas. Programación: algoritmos y estructuras de datos, Conocimiento de Java (deseable).
Objetivos:
Este curso se concentra en el desarrollo de aplicaciones prácticas que incluyen el uso de tecnología del leguaje natural. Se introducirán conceptos de Procesamiento del Lenguaje Natural (PLN) que reforzarán con el desarrollo, testeo y tecnología de evaluación en sesiones de demostración. Las aplicaciones que se estudiarán en el curso incluyen: Extracción de Información, Sistemas de Respuesta a Pregutnas (QA) y Resumen de Texto. Ninguna de las aplicaciones se estudiarán en detalle. El objetivo principal del curso es promover el uso del PLN y facilitar el acceso a la tecnología disponible que puede ser adaptada para aplicaciones en domininos específicos, de modo que los estudiantes puedan encontrar la motivación para desarrollar sus propias herramientas o sistemas.
Programa:
- Panorama de las tecnologías del PLN, incluyendo el rotulado de clases de palabra, reconocimiento de entidades, parsing, interpretación semántica, y resolución de co-referencia.
- Tecnología del Procesamiento del Lenguaje Natural para el acceso a Información. Sistemas existentes y proyectos que combinan PLN avanzado.
- Extracción de Información: reconocimiento de entidades, extracción de relaciones, extracción de eventos, aprendizaje basado en reglas y automático, evaluación, TREC/QA.
- Resumen automático de Texto. Extracción de oraciones, rasgos superficiales para la extracción de oraciones, combinación de rasgos, resumen de documentos múltiples, evaluación, Conferencias de Compresión de Documentos.
Herramientas que se usarán en el aprendizaje y desarrollo, (son de libre acceso y estarán disponibles para el laboratorio):
- Sistema GATE.
- Kit de herramientas para Resumen Automático.
- El parser SUPPLE.
- Sistema de Respuesta a Preguntas (QA), desarrollado en Sheffield.
- Lucene, usado para desarrollar un sistema de Recuperación de Información para QA.
- Colección de datos como la colección AQUAINT y el DUC corpus, serán usados como fuentes para el desarrollo de aplicaciones.
Profesor:
-
Horacio Saggion, Department of Computer Science, University of Sheffield, UK.
Dr. Saggion is a research fellow in the Natural Language Processing
group, Department of Computer Science, University of Sheffield,
England, UK. His area of expertise is Text Summarization. He works on
information extraction, question answering, and text summarization. He
obtained his PhD. in 2000 from Université de Montréal, Departement
d’Informatique et de Recherche Operationnelle; his Master degree from
Universidade Estadual de Campinas (UNICAMP), Departamento de Computacão
in 1995; and his undergraduate degree of "Licenciado" in 1988 from
Universidad de Buenos Aires, Departamento de Computación. He has
published over 40 works in conferences, workshops and journal papers as
well as written two book chapters. He has also organised a workshop on
text summarization in RANLP 2005. Together with his research career, he
has been an active teacher, he was assistant professor and researcher
at Universidad de Buenos Aires (1986-1997), Universidad Nacional de
Quilmes (1995-1996), and Université de Montréal (fall 1998 and fall
1999), and invited researcher at Johns Hopkins University and
Université de Paris VII. He has been a member of several scientific
program committees in natural language processing and artificial
intelligence. He has received awards from several institutions
including Ministerio de Educación de la Nación (Argentina), Fundación
Antorchas (Argentina), and Université de Montréal (Canada). He has
given an introductory course on Text Summarization in ESSLLI 2005 and a
course on information access in ESSLLI 2007. He also gave a tutorial on
Text Summarization in LREC 2006 and on Text Summarization and Question
Answering in IJCNLP 2008.