Francisco Gómez Fernandez, integrante del grupo de Procesamiento de Imágenes y Visión por Computadora, defendió con éxito su tesis de doctorado en el Departamento de Computación.
El miércoles 30 de marzo, Francisco Gómez Fernández presentó en el Laboratorio Turing los resultados de su tesis, titulada “Estimación de movimiento en secuencias de imágenes RGB y RGB-D”. La dirección de la tesis estuvo a cargo de los doctores Marta Mejail y Alvaro Pardo. En tanto que el jurado estuvo compuesto por los doctores Juan Carlos Gómez, Enrique Ferreira Vázquez y Juan P. Wachs.
Durante la presentación de la Tesis, el flamante doctor en Ciencias de la Computación comenzó puntualizando que el análisis de las secuencias de imagen puede aplicarse a acciones o actividades, movimientos eventuales y texturas temporales. En este sentido, trabajó en dos líneas de investigación, la primera aplicada a las texturas dinámicas y la segunda al flujo óptico y flujo de la escena.
El objetivo de su investigación estuvo centrado en poder realizar una estimación densa del movimiento, a través de modelos y algoritmos de implementación que permitan mejoras de tiempo y de performance en la estimación del movimiento de secuencias de imágenes, tanto RGB cómo RGB-D. Más allá de los problemas que pueden aparecer en el trabajo concreto con imágenes (oclusión, discontinuidades de movimiento, etc.), estas estimaciones permiten mejorar el procesamiento de imágenes en áreas tan diversas como las imágenes del las cámaras de tránsito, la edición de video y edición de cine, restauración de imágenes, la realidad aumentada y la compresión de imágenes.
Los desafíos futuros para esta investigación serían poder generar modelos más extensos de textura dinámica con más capas de movimiento, crear data sets de textura dinámica e implementar eficientemente hardware paralelo bajo GPU.
Resumen
El movimiento es una característica fundamental para el procesamiento de video y sus posteriores aplicaciones. La estimación de movimiento en video es de gran utilidad para definir la correspondencia de puntos en una escena, calcular sus velocidades y así poder discriminar objetos, acciones, segmentar movimiento, etc.
El objetivo de este trabajo es realizar un seguimiento preciso y una estimación de movimiento de un gran conjunto de puntos. Esto se conoce como estimación densa de movimiento.
Para ello, se proponen dos líneas principales de estudio: modelos estadísticos de movimiento utilizando texturas dinámicas y el cálculo del flujo óptico minimizando la energía con graph cuts, en ambos casos considerando secuencias de imágenes RGB y RGB-D.
El modelo de texturas dinámicas está muy bien condicionado para la segmentación de movimiento, y dentro de este contexto desarrollamos una aplicación con características novedosas: (i) proceso de aprendizaje desacoplado y (ii) algoritmos optimizados para trabajar en placas gráficas GPU (Graphic Process Unit). Además, el modelo ha sido extendido para contemplar secuencias de imágenes RGB-D, el cual no había sido estudiado hasta el momento, permitiéndonos identificar procesos visuales en 3D.
Experimentos sobre la base de datos DynTex muestran resultados exitosos de performance y de clasificación para la mayoría de las casos. Luego, nuestros análisis sobre secuencias RGB-D revelan la viabilidad de este modelo para aplicaciones 3D.
El problema de la estimación del flujo óptico (optical flow) fue abordado mediante la minimización de la energía del campo de vectores utilizando la técnica de graph cuts con una formulación novedosa de la energía. Ampliamos esta formulación para tener en cuenta la profundidad y así calcular el flujo de la escena (scene flow). Hasta donde sabemos, en la literatura, nunca se había utilizado graph cuts para estimar el scene flow. Los resultados obtenidos sobre el dataset Middlebury muestran que nuestros algoritmos son competitivos comparados con los presentes en el estado del arte.
Palabras clave: estimación de movimiento, texturas dinámicas, optical flow, scene flow, graph cuts.