Sebastián Ubalde y Matías Nitsche defendieron con éxito sus tesis de doctorado en el Departamento de Computación.

El martes 22 de marzo se realizó la defensa de dos tesis de doctorado.

A las 11:30 hs. Sebastián Ubalde presentó los resultados de su tesis titulada «Reconocimiento de acciones en videos de profundidad», dirigida por la Dra. Marta Mejail. El jurado estuvo integrado por los doctores Virginia Ballarin (Universidad Nacional de Mar del Plata), Jorge Adrián Sánchez (Universidad Nacional de Córdoba) y Ángel Sappa (Universitat Autónoma de Barcelona, España).

En tanto que a las 13:30 hs. Matías Nitsche expuso su tesis titulada «Método de navegación basado en aprendizaje y repetición autónoma para vehículos áreos no tripulados», bajo la co-dirección de la Dra. Marta Mejail y el Dr. Miroslav Kulich. El jurado estuvo conformado por los doctores Javier Civera Sancho (Universidad de Zaragoza, España), Carlos Soria (Universidad Nacional de San Juan) y Jorge A. Sánchez (Universidad Nacional de Córdoba).

El Departamento de Computación expresa sus felicitaciones a los flamantes doctores de la Universidad de Buenos Aires.

Resumen de las Tesis

Autor: Dr. Sebastián Ubalde

Título: «Reconocimiento de acciones en videos de profundidad»

Resumen: El problema de reconocer automáticamente una acción llevada a cabo en un video está recibiendo mucha atención en la comunidad de visión por computadora, con aplicaciones que van desde el reconocimiento de personas hasta la interacción persona-computador. Podemos pensar al cuerpo humano como un sistema de segmentos rígidos conectados por articulaciones, y al movimiento del cuerpo como una transformación continua de la configuración espacial de dichos segmentos. La llegada de cámaras de profundidad de bajo costo hizo posible el desarrollo de un algoritmo de seguimiento de personas preciso y eficiente, que obtiene la ubicación 3D de varias articulaciones del esqueleto humano en tiempo real. Esta tesis presenta contribuciones al modelado de la evolución temporal de los esqueletos. El modelado de la evolución temporal de descriptores de esqueleto plantea varios desafíos. En primer lugar, la posición 3D estimada para las articulaciones suele ser imprecisa. En segundo lugar, las acciones humanas presentan gran variabilidad intra-clase. Esta variabilidad puede encontrarse no sólo en la configuración de los esqueletos por separado (por ejemplo, la misma acción da lugar a diferentes configuraciones para diestros y para zurdos) sino también en la dinámica de la acción: diferentes personas pueden ejecutar una misma acción a distintas velocidades; las acciones que involucran movimientos periódicos (como aplaudir) pueden presentar diferentes cantidades de repeticiones de esos movimientos; dos videos de la misma acción puede estar no-alineados temporalmente; etc. Por último, acciones diferentes pueden involucrar configuraciones de esqueleto y movimientos similares, dando lugar a un escenario de gran similaridad inter-clase. En este trabajo exploramos dos enfoques para hacer frente a estas dificultades. En el primer enfoque presentamos una extensión a Edit Distance on Real sequence (EDR), una medida de similaridad entre series temporales robusta y precisa. Proponemos dos mejoras clave a EDR: una función de costo suave para el alineamiento de puntos y un algoritmo de alineamiento modificado basado en el concepto de Instancia-a-Clase (I2C, por el término en inglés: Instance-to-Class) . La función de distancia resultante tiene en cuenta el ordenamiento temporal de las secuencias comparadas, no requiere aprendizaje de parámetros y es altamente tolerante al ruido y al desfasaje temporal. Además, mejora los resultados de métodos no-paramétricos de clasificación de secuencias, sobre todo en casos de alta variabilidad intra-clase y pocos datos de entrenamiento. En el segundo enfoque, reconocemos que la cantidad de esqueletos discriminativos en una secuencia puede ser baja. Los esqueletos restantes pueden ser ruidosos, tener configuraciones comunes a varias acciones (por ejemplo, la configuración correspondiente a un esqueleto sentado e inmóvil) u ocurrir en instantes de tiempo poco comunes para la acción del video. Por lo tanto, el problema puede ser naturalmente encarado como uno de Aprendizaje Multi Instancia (MIL por el término en inglés Multiple Instance Learning). En MIL, las instancias de entrenamiento se organizan en conjuntos o bags. Cada bag de entrenamiento tiene asignada una etiqueta que indica la clase a la que pertenece. Un bag etiquetado con una determinada clase contiene instancias que son características de la clase, pero puede (y generalmente así ocurre) también contener instancias que no lo son. Siguiendo esta idea, representamos los videos como bags de descriptores de esqueleto con marcas de tiempo, y proponemos un framework basado en MIL para el reconocimiento de acciones. Nuestro enfoque resulta muy tolerante al ruido, la variabilidad intra-clase y la similaridad inter-clase. El framework propuesto es simple y provee un mecanismo claro para regular la tolerancia al ruido, a la poca alineación temporal y a la variación en las velocidades de ejecución. Evaluamos los enfoques presentados en cuatro bases de datos públicas capturadas con cámaras de profundidad. En todos los casos, se trata de bases desafiantes. Los resultados muestran una comparación favorable de nuestras propuestas respecto al estado del arte.

Autor: Dr. Matías Nitsche

Título: «Método de navegación basado en aprendizaje y repetición autónoma para vehículos áreos no tripulados»

Resumen: En esta tesis se presenta un método basado en la técnica de Aprendizaje y Repetición (teach & repeat o TnR) para la navegación autónoma de Vehículos Aéreos No Tripulados (VANTs). Bajo esta técnica se distinguen dos fases: una de aprendizaje (teach) y otra de navegación autónoma (repeat). Durante la etapa de aprendizaje, el VANT es guiado manualmente a través del entorno, definiendo así un camino a repetir. Luego, el VANT puede ser ubicado en cualquier punto del camino (generalmente, al comienzo del mismo) e iniciar la etapa de navegación autónoma. En esta segunda fase el sistema opera a lazo cerrado controlando el VANT con el objetivo de repetir en forma precisa y robusta el camino previamente aprendido. Como principal sensado se utiliza un sistema de visión monocular, en conjunción con sensores que permitan estimar a corto plazo el desplazamiento del robot respecto del entorno, tales como unidades inerciales y de flujo óptico. El principal objetivo de este trabajo es el de proponer un método de navegación tipo TnR que pueda ser ejecutado en tiempo real y a bordo del mismo vehículo, sin depender de una estación terrena a la cual se delegue parte del procesamiento o de un sistema de localización externa (como por ejemplo GPS, en ambientes exteriores) o de captura de movimiento (como por ejemplo ViCon, en ambientes interiores). En otras palabras, se busca un sistema completamente autónomo. Para ello, se propone el uso de un enfoque basado en apariencias (o appearance-based, del inglés), que permite resolver el problema de la localización del vehículo respecto del mapa en forma cualitativa y que es computacionalmente eficiente, lo que permite su ejecución en hardware disponible a bordo del vehículo. Como parte del desarrollo del trabajo de tesis, se presenta tanto la formulación y descripción del método como el diseño y construcción de una plataforma VANT, sobre la cual se realizaron los experimentos de navegación. Asimismo, se exhiben experimentos tanto con plataformas aéreas en entornos simulados como sobre plataformas terrestres, dado que el método es aplicable también a los mismos. Con los resultados obtenidos se demuestra la factibilidad y precisión de los métodos de localización y navegación propuestos, ejecutando en hardware a bordo de un robot aéreo en tiempo-real.