El procesamiento digital de imágenes está dando un giro clave con la visión en primera persona. En este escenario, investigadores del ICC desarrollan modelos que reconocen acciones humanas cotidianas para comprender la percepción visual y asistir en la vida diaria.

Sin lugar a dudas que el procesamiento digital de imágenes resulta una tecnología esencial dentro de la inteligencia artificial (IA) y la visión artificial. Permite que las máquinas analicen, modifiquen y mejoren imágenes digitales para extraer información útil y precisa. Este proceso es fundamental para aplicaciones como la detección de objetos, el reconocimiento facial, el análisis de video en tiempo real y la mejora de imágenes médicas. A través de diversas técnicas y algoritmos, el procesamiento digital de imágenes ha transformado la manera en que las computadoras “ven” y entienden el mundo.

En los últimos años, el aprendizaje profundo (deep learning) ha revolucionado el campo del procesamiento digital de imágenes. Las redes neuronales convolucionales (CNN), una forma avanzada de algoritmos de aprendizaje profundo, están diseñadas específicamente para analizar imágenes y reconocer patrones complejos. Las CNN son capaces de aprender características de las imágenes a través de múltiples capas de procesamiento, lo que les permite detectar con mayor precisión objetos, personas y escenas.

No obstante, con el surgimiento de la visión en primera persona (egocentric vision) se produjo un cambio conceptual y técnico importante tanto en el procesamiento digital de imágenes como en el diseño y uso de redes neuronales convolucionales (CNNs). Esta visión en primera persona es un subcampo de la visión artificial que analiza imágenes y videos capturados por una cámara portátil que generalmente el humano lleva puesta (dispositivo wearable), otorgando una visión del mundo en primera persona.

Claramente la investigación en este campo pasó de simplemente reconocer objetos, patrones y analizar y clasificar imágenes, a reconocer secuencias de acciones, manipulación de objetos y rutinas diarias donde el usuario es el centro de la escena y el movimiento es constante (ya que aparecen manos que manipulan objetos).

En este contexto, investigadores del Grupo de Procesamiento de Imágenes y Visión por Computadora del ICC, están desarrollando proyectos enfocados en la Visión en Primera Persona, que buscan reconocer acciones y actividades de la vida cotidiana en la percepción visual humana y modelar ese comportamiento. El objetivo por un lado es incrementar la comprensión y el conocimiento del área y, por otro lado, poder utilizar esos avances en aplicaciones de la vida diaria como, por ejemplo, desarrollar modelos basados en visión egocéntrica para asistir en tareas a personas con capacidades diferentes.

A partir de esta visión egocéntrica o en primera persona (First Person View-FPV), buscamos entender las características de los humanos al ver, moverse, centrar la atención y hacer movimientos de acuerdo a lo que les llame la atención en su acción y qué dificultades surgen en esas actividades cotidianas. Nuestro enfoque parte desde la detección de la mano y el objeto que está manipulando”, puntualiza María Elena Buemi, investigadora del Grupo de Procesamiento de Imágenes del ICC. De este modo, existen distintos enfoques que los investigadores utilizan para abordar el desafío de analizar los videos. Por ejemplo la postura de la mano y su movimiento, el movimiento de la cabeza, la dirección de la mirada y la importancia de los objetos en este contexto.

De este modo, los datos visuales capturan la parte de la escena en la que el usuario se centra para realizar la tarea en cuestión (mover una cuchara para servirse azúcar en el café y revolverlo, o tomar una botella de la mesa de la cocina) y ofrecen una perspectiva valiosa para comprender sus actividades y su contexto en un entorno natural.

La cámara portátil que mira hacia adelante suele complementarse con una cámara que mira hacia el interior del ojo del usuario y que puede medir su mirada, lo cual resulta útil para detectar la atención y comprender mejor su actividad e intenciones. Tal es así que los dispositivos usuales consisten en anteojos inteligentes (Smart Glasses), cámaras de acción como las GoPro y dispositivos de seguimiento ocular (Eye Trackers). Y el FPV tiene múltiples aplicaciones: atención médica, monitoreo no invasivo, seguimiento de productos en consumo masivo, aplicaciones deportivas, visión en robots, entre otras.

Cabe recalcar que el trabajo precursor a estos avances es del investigador del MIT Steve Mann, referente del área, quien en 1996 propuso «WearCam», un sistema multimedia portátil con capacidad de procesamiento de vídeo y conexión inalámbrica a Internet, que se puede usar como un dispositivo protésico para ayudar a personas con discapacidad visual. En particular, describió dos ejemplos de aplicación: el «asistente visual personal» que incorpora un filtro visual espacial que reconfigura el sistema visual humano, proporcionando una transformación de coordenadas. Y la «prótesis de memoria visual», que incorpora un filtro visual temporal que proporciona flashbacks inducidos por ordenador para superar la amnesia visual.

Entre los problemas clásicos que resuelve el enfoque de la FPV pueden destacarse obtener videos de las escenas más importantes, poder abordar la variabilidad en los datasets, los cambios en la iluminación de las escenas y la posición de los objetos. Y sobre todo si alguien hace una acción o actividad poder reconocer y predecir la siguiente actividad: por ejemplo si el sujeto está en la cocina con una sartén, y entre los ingredientes tiene huevos, papas y aceite, todo indicaría que está por hacer una tortilla de papas”, explica Buemi. Y subraya que al reconocer el entorno, hacer un mapeo de objetos y actividades y entender cómo interactúa con los dispositivos que lleva puestos, este tipo de enfoque resulta de una enorme utilidad para la investigación actual, especialmente en aplicaciones de la vida cotidiana.

Problemas y desafíos de la visión en primera persona

Los videos egocéntricos comenzaron a estudiarse en la última década gracias a dispositivos livianos y portables (GoPro y similares). Esto hizo que se tengan cada vez más conjuntos de datos. Esto dio lugar a investigaciones que inicialmente se pueden dividir en dos áreas: A) reconocimiento/clasificación de actividades; B) resumen de videos y detección de objetos.

Actualmente existen dos términos que aparecen como contradictorios: acciones y actividades. Luego de arduas discusiones entre los investigadores, se concluyó que ambos términos son semánticamente diferentes: una acción es un evento breve, como «abrir un frasco», mientras que una actividad es un evento semánticamente más complejo en el que se combinan varias acciones, con una duración que va desde varios minutos hasta horas.

Además, algunos trabajos incluso denotan el movimiento utilizando el término «acción», es decir, el movimiento generado al cortar algo se denominaría acción, independientemente de los objetos presentes en la escena. 

Entre algunos de los problemas que se presentan a la hora de generar videos FPV, está la dificultad para distinguir entre frente y fondo de una escena, la dificultad en la calibración de la cámara y la necesidad de módulos de alto nivel para obtener features de escala, rotación y traslación. En tanto que los desafíos consisten en detección y seguimiento de objetos en tiempo real, seguimiento de actividades, mapeo del entorno, interacción hombre-máquina y detección de interacción entre personas.

Recientemente empiezan a aparecer varios datasets con cientos de horas de video que permiten modelar el comportamiento humano desde diferentes perspectivas, estos datos de FPV son provistos, por ejemplo, por la Universidad de Carnegie Mellon y la Universidad de Georgia, incluso existen datos de alta resolución capturados por sujetos que realizan actividades diarias y proporciona anotaciones de acción, cuadros delimitadores de objetos y manos”, destaca la investigadora del ICC, quien explica que están desarrollando diferentes proyectos de investigación y tesis de licenciatura centradas en estos enfoques (ya defendidas como la de Maximiliano Giusto y en proceso como las tesis de Juan Ignacio Bustos Gorostegui y de Nicolás Pacheco). 

Y señala que en las investigaciones que llevan adelante “diferenciamos entre acciones y actividades, y entre acciones y movimiento, siendo el movimiento para nosotros el movimiento generado a partir de una acción, independientemente del objeto”. 

FPV usando modelos de atención con localización de la mirada

Como un ejemplo donde se resumen claramente estas investigaciones, el grupo publicó en una de las principales conferencias del área (11th International Workshop on Assistive Computer Vision and Robotics) el artículo “Attention-based performance improvement for gaze localization”, cuyos autores son Axel Straminsky, Daniel Acevedo, María Elena Buemi y Julio Jacobo-Berlles .

El paper busca proponer mejoras a uno de los algoritmos del estado del arte en FPV (algoritmo de Lu) para obtener resultados comparables con recursos más reducidos. Para ello, los investigadores adaptaron un modelo de reconocimiento de acciones en videos egocéntricos basado en mecanismos de atención combinados con flujo óptico, de modo de entender en qué objetos y actividades está puesto el interés que realiza el sujeto. Se trata de un modelo de arquitectura que utiliza dos submodelos en paralelo: uno basado en Flujo Óptico y otro basado en el propio vídeo (imágenes RGB). Tal es así que se introdujeron las siguientes mejoras: precisión mixta en el ciclo de entrenamiento, uso de Ranger Optimizer en lugar de SGD estándar en el mecanismo de atención y el uso de varias funciones de activación. Y para las pruebas, usaron el conjunto de datos EGTEA Gaze+, que consta de vídeos de acciones cotidianas en primera persona y la experimentación realizada, junto con los resultados obtenidos.

Este trabajo abre la posibilidad de probar conjuntos de datos más complejos, ya que al expandir el mecanismo de atención y utilizar un modelo entrenado con cientos de iteraciones, probablemente obtengamos una mejor performance”, afirma Buemi.

A su vez, el mismo grupo publicó junto al estudiante y becario BIICC, Nicolás Pacheco, el artículo “Hand and Object Detection in Egocentric Videos with Local Color Features and Random Forest” (2nd International Ego4D Workshop-ECCV 2022). Se trata de un interesante trabajo que, en el análisis de imágenes de video en tiempo real, propone el reconocimiento de brazos y manos para encontrar el centro de atención y así saber qué objeto tiene en sus manos el usuario que porta la cámara. Y, al mismo tiempo, tiene como propósito identificar los objetos que están en la imagen, para entender el contexto en el que está sucediendo la acción.

En este proyecto usamos algoritmos de random forest (un algoritmo de aprendizaje automático de uso común que combina el resultado de múltiples árboles de decisión para llegar a un resultado único) que nos permitieron detectar la piel de la mano a nivel de píxel usando la función de color y armar máscaras con conjuntos de datos, principalmente de RGB, para detectar objetos en la cocina (por ejemplo café y sándwich)”, comenta la investigadora y doctora en ciencias de la computación.

A partir de la piel y objetos detectados, los investigadores pudieron reconocer que los objetos en la imagen brindan un contexto y una semántica y distinguir los objetos que están realmente en la mano, con los que se puede detectar la acción en el momento y los tipos de cambios que suceden en la acción.

Además, la investigadora Buemi aclara que uno de los próximos desafíos de estos proyectos es resolver el punto de no retorno (PNR) en vídeos egocéntricos. “PNR se le dice a aquellos puntos en los que hubo un cambio físico en la actividad y ya no puede volverse atrás, por ejemplo donde se hace un café instantáneo, en la contra si se sirve un vaso de agua no hay PNR porque no hay cambio físico. O quemar un papel no tiene vuelta atrás, pero verter un vaso de agua sí”, aclara.

Visión en primera persona en la frontera de la interdisciplina

Para concluir, Buemi explica que este nuevo enfoque propio del procesamiento digital de imágenes, tiene un fuerte carácter interdisciplinario. “A medida que podamos modelar el comportamiento humano con la visión en primera persona, vamos a poder comprender mejor cómo el ojo y el cerebro humano perciben los objetos de su entorno, lo cual tiene un fuerte cruce con la neurociencia”, argumenta. Y aclara que están interactuando con investigadores de otras disciplinas de Exactas para, desde el procesamiento de imágenes, contribuir a la resolución de nuevos problemas. “Estamos colaborando fuertemente no sólo en proyectos de nuestra área sino en otros dominios para mejorar imágenes digitales en biología, medioambiente y salud”.

Dra. María Elena Buemi

Por último, la investigadora recalca el potencial de estas tecnologías para ayudar en la vida cotidiana a personas con discapacidad visual o intelectual. “Sin dudas que estos avances no sólo tendrán funciones de prótesis visual, sino que también ayudarán a personas con dificultades de atención o memoria para recordar hechos pasados o eventos de corto plazo. Por ejemplo, una persona que se olvidó las llaves en alguna parte de la casa y el sistema reconoce dónde (en la mesa del comedor), por lo que le ayuda a resolver el problema”, complementa.

Y postula que estos avances tecnológicos son cada vez más dinámicos y rápidos, por lo que desde su grupo resulta necesario estar permanentemente actualizado. “Tenemos cada vez más desafíos técnicos e innovaciones que surgen en tiempos cada vez más cortos, que nos obligan a conocer las nuevas técnicas de procesamiento que aparecen y estar atentos a los desarrollos de la visión por computadora, para poder incorporarlos sucesivamente a nuestros proyectos de investigación”, concluye.