El trabajo científico se está presentando en ICRA, la conferencia internacional más importante del mundo sobre robótica y automatización, que se realiza del 19 al 23 de mayo en Atlanta, Estados Unidos, y tiene como autores a los investigadores Emiliano Höss y Pablo De Cristóforis, pertenecientes al Departamento de Computación y al Instituto de Ciencias de la Computación ICC UBA-CONICET.
Imaginemos que quedamos atrapados en un edificio en ruinas y un robot debe encarar la ardua tarea de encontrarnos lo más rápidamente posible, de forma autónoma, sin conocer previamente nuestra ubicación ni el recorrido o el mapa necesario para rescatarnos.
Desplazarse por terrenos desconocidos, con muchos obstáculos, ha sido durante mucho tiempo un desafío considerable tanto para los humanos como para los robots móviles. Los métodos tradicionales de navegación de un robot o un vehículo autónomo requieren un mapa preexistente, pero en territorios desconocidos es imposible identificar o planificar la ruta sin recorrer el área. Esto plantea un dilema clásico en robótica, ¿cómo puede un robot desplazarse por un entorno desconocido sin un mapa, y cómo puede crear un mapa sin recorrer primero el entorno?
Para ello existe una técnica clásica que se denomina SLAM (localización y mapeo simultáneos, por sus siglas en inglés). Se trata de un proceso utilizado por robots y vehículos autónomos para construir un mapa de un entorno desconocido mientras simultáneamente se mantiene el seguimiento de su ubicación dentro de éste. En el mapeo se crea un modelo del entorno que se está explorando mientras que en la localización se determina la posición y orientación del robot en el mapa.
Hasta hace algunos años, este proceso fundamental para la navegación autónoma se hacía montando en el robot el hardware tradicional, o sea, una CPU -clásico procesador o unidad de procesamiento central que lleva una computadora- con sensores como cámaras o lásers e implementando una representación del entorno basada en puntos (representación “esparsa”), cuyo objetivo era construir una especie de “malla” del propio entorno. Sin embargo, este método de procesamiento resulta insuficiente para tareas como la planificación de trayectorias seguras, la evasión de obstáculos o la manipulación de objetos ya que no provee una representación completa del ambiente.
Con la llegada de las placas GPU (unidad de procesamiento de gráficos), el poder de cómputo disponible aumentó considerablemente y se aceleró a pasos agigantados: esta tecnología computacional tiene muchos núcleos más pequeños y especializados que trabajan en paralelo y permiten procesar imágenes con mayor rapidez, manipular datos de video en tiempo real y ejecutar algoritmos de IA y aprendizaje automático de manera intensiva.
Desde ese contexto favorable, investigadores argentinos con lugar de trabajo en el Instituto de Ciencias de la Computación (ICC UBA-CONICET) desarrollaron el primer sistema de SLAM 3D denso, que puede funcionar a bordo de pequeños robots móviles terrestres o aéreos tales como drones, para hacer una reconstrucción 3D y consistente del ambiente en tiempo real, usando GPU.
“En este trabajo que estamos presentando en la conferencia internacional de robótica más importante del mundo (la IEEE International Conference on Robotics and Automation, ICRA 2025), mostraremos los resultados de coVoxSLAM, un novedoso sistema SLAM volumétrico acelerado por GPU que aprovecha al máximo la potencia de procesamiento paralelo para construir mapas globalmente consistentes, incluso en entornos a gran escala”, describe entusiasmado Pablo De Cristóforis -investigador del ICC y Director del Laboratorio de Robótica y Sistemas Embedidos (UBA)- quien está concurriendo a Atlanta para presentar el trabajo y fue seleccionado como co-chair de la sesión de SLAM de ICRA, teniendo en cuenta la relevancia internacional de su aporte científico.
Para comprender por qué se trata de una mejora clave al SLAM, es fundamental observar la calidad de las representaciones en imágenes y la consistencia global que se logra en la representación del entorno: asegurar que esta representación del entorno (mapa) se mantenga precisa y coherente a lo largo del tiempo y a medida que el robot revisita lugares previamente recorridos, lo que se conoce como “cierre de ciclos”.
Implementando el mapeo denso se pueden lograr representaciones volumétricas del ambiente, mediante vóxeles, que son los equivalentes a los píxeles de una imagen bidimensional pero en este caso en un espacio tridimensional. A diferencia de la representación dispersa basada en nubes de puntos que provienen de triangulaciones para estimar las distancias, se pueden lograr mapas mucho más ricos en información y más efectivos a la hora de realizar tareas de manera autónoma.
“Con una representación dispersa, si el robot tiene que manipular un objeto, no cuenta con toda la información necesaria para hacerlo con precisión, o si tiene que atravesar un pasillo, no sabe exactamente cuáles son las dimensiones y la geometría de ese pasillo, y por lo tanto corre el riesgo de colisionar. En cambio, al tener una representación densa del mapa contamos con un modelo más rico en cuanto a la información del entorno que nos permite lograr la planificación de trayectorias o de movimientos para interactuar con objetos de manera mucho más segura y realista en el ambiente, algo que con un mapeo ralo basado sólo en nubes de puntos no se podía hacer con absoluta efectividad”, puntualiza De Cristóforis.
“Estamos con muchísimas expectativas de cara a la presentación de nuestro trabajo en ICRA, donde podremos exhibir resultados muy relevantes en robótica y visión por computadora. Y también muy orgullosos, ya que logramos superar al sistema de SLAM denso basado en GPU desarrollado por la Universidad Politécnica ETH Zurich, debido a que nuestro sistema es entre 50 y 100 por ciento más eficiente en términos de tiempos de ejecución. Y es el primer sistema con estas características que tiene implementado en GPU tanto la parte de frontend como de backend”, destaca el investigador del ICC.
En este punto, comúnmente el frontend se ocupa de la percepción de los robots, ya que recibe la información de los sensores y la procesa, mientras que el backend ajusta todos esos datos y los programa para ir construyendo el mapa. En este sentido, el investigador comenta la complejidad de algunas tareas para lograr estos importantes resultados:
1) Los investigadores debieron programar e implementar todo el sistema de backend para utilizar el mapeo 3D denso con GPU. Esto hasta al momento no se había realizado (de hecho el grupo de ETH, que es referente en la temática, implementó el frontend con GPU pero el backend continuaba corriendo en CPU). Además de programar los algoritmos de SLAM para la GPU con el lenguaje Cuda, hubo que reimplementar parcialmente varias librerías de código abierto que resuelven el problema de minimización no lineal (como Ceres), de manera consistente para que pudieran ejecutarse en GPU.
2) Los datos que se usaron para poner a prueba el sistema provienen de los datasets de ETH-Zurich y combinan datos reales de un drone de rescate con datos sintéticos (simulados) para comparar el rendimiento del mapa de “verdad de base” (Ground Truth) con los datos reales; el desafío próximo es poder testearlo también con datos propios.
3) El sistema fue diseñado para poder ejecutarse en computadoras de escritorio y también en computadoras embebidas con GPU como las que pueden montarse a bordo de pequeños robots móviles, como el modelo Xavier o Jetson de NVIDIA, y logró un desempeño en tiempo real, con mejoras de procesamiento de imágenes que se multiplican por 150x respecto de sistemas equivalente que corren en CPU. Con lo cual, este mapeo 3D denso se podría implementar en un robot terrestre o en un dron para mapear y localizar objetos en tiempo real sin la necesidad de obtener información de GPS o de cualquier otro sensor externo para resolver la localización.

Descripción general del sistema y el flujo de datos de coVoxSLAM

Tabla hash dual para submapas y bloques utilizados para indexar cualquier punto en el espacio 3D

Reconstrucción resultante de un vuelo de 400 m de un vehículo aéreo no tripulado (MAV) en un campo de entrenamiento de búsqueda y rescate. La trayectoria (en verde) presenta transiciones de interior a exterior a través de un edificio.

Resultados del testeo
Cabe recalcar que este tipo de sistemas posee múltiples y valiosas aplicaciones tales como el uso de robots para apoyo en tareas de riesgo para los humanos, robótica industrial en entornos dinámicos como fábricas y agricultura o minería basada en tecnología intensiva. “A nivel de Argentina tenemos áreas estratégicas de producción donde se pueden aplicar estas tecnologías de mapeo denso utilizando drones, como la minería y el petróleo, o como la agricultura de precisión. Contar con mapas densos de información en estas áreas productivas permite aumentar la producción, reducir costos, evitar que operarios humanos realicen tareas peligrosas y cuidar más el medio ambiente porque se puede ser más preciso en la explotación de nuestros recursos naturales”, afirma De Cristóforis.
Incluso este desarrollo de SLAM denso se puede utilizar para aplicaciones de realidad aumentada en el celular en lugares donde la señal de GPS tiene alcance limitado, como dentro de edificios o locales comerciales. Supongamos que necesitamos llegar a una determinada oficina en un edificio que no conocemos o buscar un producto en una góndola de un supermercado, en estos casos contar con sistemas de SLAM denso corriendo en nuestros celulares pueden servir para guiar a las personas dentro de estos ambientes.
El artículo que se presentará en la conferencia mundial ICRA lleva como título “coVoxSLAM: GPU accelerated globally consistent dense SLAM” y sus autores son los argentinos Pablo De Cristóforis y Emiliano Höss (que el año pasado presentó este tema como su Tesis de Licenciatura en Ciencias de la Computación). El trabajo fue realizado con la colaboración especial del profesor Javier Civera, investigador español referente de la Universidad de Zaragoza, con quien el grupo de robótica argentino mantiene una fructífera colaboración.
Perspectivas futuras
El Doctor en Ciencias de la Computación, Pablo De Cristóforis, explica que los próximos pasos involucran poder implementar este sistema 3D en robots autónomos propios, como el robot hexápodo (con seis patas) o el robot multicóptero (drone) construído por ellos mismos. Y de ese modo contar con datos locales para poder evaluar el desempeño del sistema de SLAM. Este sistema podría utilizarse luego en otros proyectos que viene desarrollando el grupo como el monitoreo de bosques nativos utilizando drones, o para tareas de búsqueda y rescate de personas en situaciones de riesgo (como un incendio o una catástrofe natural) donde un robot hexápodo pueda realizar tareas de mapeo y detección de víctimas.
Al mismo tiempo, aclara que desde su grupo de investigación están trabajando para extender este artículo para enviarlo a la prestigiosa revista IEEE Transactions on Robotics -la publicación más importante de robótica a nivel mundial- y aplicar a nuevos subsidios internacionales para obtener mayores recursos en términos de hardware y capacidad de cómputo.
“Nuestra presencia en ICRA es una oportunidad inmejorable para mostrar el enorme potencial de generación de conocimiento que tiene Argentina, frente a los países desarrollados, en las áreas de robótica, automatización e inteligencia artificial. En este sentido quiero agradecer especialmente a la UBA que nos ayudó a financiar parcialmente este proyecto de investigación así como nuestra participación en ICRA”, concluye.