BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//Departamento de Computación - ECPv6.15.18//NONSGML v1.0//EN
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALNAME:Departamento de Computación
X-ORIGINAL-URL:https://www.dc.uba.ar
X-WR-CALDESC:Eventos para Departamento de Computación
REFRESH-INTERVAL;VALUE=DURATION:PT1H
X-Robots-Tag:noindex
X-PUBLISHED-TTL:PT1H
BEGIN:VTIMEZONE
TZID:America/Sao_Paulo
BEGIN:STANDARD
TZOFFSETFROM:-0300
TZOFFSETTO:-0300
TZNAME:-03
DTSTART:20220101T000000
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
DTSTART;TZID=America/Sao_Paulo:20230502T100000
DTEND;TZID=America/Sao_Paulo:20230502T110000
DTSTAMP:20260719T043343
CREATED:20230421T152919Z
LAST-MODIFIED:20230421T152919Z
UID:8302-1683021600-1683025200@www.dc.uba.ar
SUMMARY:Defensa Tesis Licenciatura Tomás Delgado
DESCRIPTION:Título: Aprendiendo políticas de exploración generales para escalar la síntesis de controladores discretos.\nDirector: Sebastian Uchitel\nJurados: Agusting Gravano y Pablo Riera \nResumen:\nEl área de síntesis de controladores discretos estudia la construcción automática de estrategias de comportamiento con garantías de correctitud\, para sistemas descriptos formalmente por autómatas. La limitación de estas técnicas viene dada por la maldición de la dimensionalidad\, que hace que el tamaño de los autómatas crezca muy velozmente y restringe la aplicabilidad. La síntesis on-the-fly busca eludir esta problemática construyendo el espacio de estados parcialmente\, agregando una transición a la vez desde el estado inicial del sistema e intentando explorar solo lo necesario para la estrategia ganadora\, o para mostrar que tal estrategia no existe.\nEn esta tesis desarrollamos un primer método para aprender una heurística que guı́e la exploración a partir de la experiencia. En primer lugar\, definimos una tarea de aprendizaje por refuerzo para la cual el agente representa una política de exploración. Luego\, mostramos una forma de usar Q-Learning abstrayendo tanto estados como acciones en un conjunto de features. Esta abstracción hace posible el aprendizaje y la generalización\, pero genera un alto grado de observabilidad parcial. La evaluación empírica muestra que\, a pesar de la falta de garantías teóricas de convergencia\, es posible aprender consistentemente políticas competitivas en las instancias de entrenamiento. Más aún\, las políticas inducidas en instancias grandes superan en promedio a la mejor heurı́stica desarrollada por humanos\, empujando la frontera de problemas resueltos en algunos de los dominios del benchmark utilizado.
URL:https://www.dc.uba.ar/event/defensa-tesis-licenciatura-tomas-delgado/
LOCATION:Aula 1115
CATEGORIES:Agenda
END:VEVENT
END:VCALENDAR