Este evento ha pasado.
Defensa Tesis Licenciatura Maximiliano Giusto
diciembre 17 @ 7:00 pm - 8:00 pm
Título: Reconocimiento de acciones en visión egocéntrica identificando manos-objeto con YOLOv8 y ViT
Directora: María Elena Buemi
Jurados: Daniel Acevedo, Pablo De Cristóforis
Directora: María Elena Buemi
Jurados: Daniel Acevedo, Pablo De Cristóforis
Resumen
En este trabajo se implementa una arquitectura para el reconocimiento de acciones a partir de videos capturados desde una perspectiva de primera persona, con un enfoque centrado en la interacción mano–objeto. La metodología propuesta combina un modelo de detección de poses basado en YOLOv8-Pose con un modelo de clasificación temporal basado en Vision Transformer (ViT). Los datos provienen del dataset H2O que contiene vídeos etiquetados de manos, objetos y acciones capturadas con una configuración dual egocéntrica–exocéntrica que permiten la detección de los puntos de interés, aún si están parcialmente ocluidos. YOLOv8-Pose estima la pose de ambas manos e identifica el objeto manipulado utilizando información 2D. La salida de YOLO se convierte en la entrada del ViT para reconocer la acción del video.
Se aplicó un proceso de revisión y corrección de etiquetas de objetos emitidas por YOLO dado que eran erróneas. Esto permitió mejorar la performance pasando de 79,50 \% a 90,16 \% en validación y de 72,31\% a 79,75 \% en test al emplear YOLOv8 entrenado durante 300 épocas con corrección de etiquetas. El mean End Point Error (EPE) se utilizó como métrica para evaluar la precisión de las poses, mejorando a 17.66 px sobre los 24.46 px reportados en la literatura como los menores. Los experimentos muestran que las representaciones 2D —incluso cuando provienen de anotaciones 3D
proyectadas— resultan suficientes para obtener un reconocimiento de acciones preciso en el caso particular de entornos egocéntricos.Palabras clave: Visión egocéntrica, Reconocimiento de acciones, Interacción mano-objeto, YOLOv8-Pose, VIT
Se aplicó un proceso de revisión y corrección de etiquetas de objetos emitidas por YOLO dado que eran erróneas. Esto permitió mejorar la performance pasando de 79,50 \% a 90,16 \% en validación y de 72,31\% a 79,75 \% en test al emplear YOLOv8 entrenado durante 300 épocas con corrección de etiquetas. El mean End Point Error (EPE) se utilizó como métrica para evaluar la precisión de las poses, mejorando a 17.66 px sobre los 24.46 px reportados en la literatura como los menores. Los experimentos muestran que las representaciones 2D —incluso cuando provienen de anotaciones 3D
proyectadas— resultan suficientes para obtener un reconocimiento de acciones preciso en el caso particular de entornos egocéntricos.Palabras clave: Visión egocéntrica, Reconocimiento de acciones, Interacción mano-objeto, YOLOv8-Pose, VIT
