
Este evento ha pasado.
Defensa Tesis Licenciatura Gonzalo Fernandez
13 marzo, 2020 @ 3:00 pm - 4:00 pm
Título: «Estimación de la veracidad de expresiones faciales utilizando aprendizaje profundo»
Director: María Elena Buemi
Jurados: Enrique Segura – Daniel Acevedo
Resumen:
En este trabajo se estudian diferentes enfoques basados en aprendizaje automático (en particular, variantes de redes neuronales artificiales) para clasificar instancias de expresiones faciales en video según su veracidad. Este problema tiene la particularidad, en comparación
a la mayorı́a de problemas que las computadoras aprendieron a resolver utilizando inteligencia artificial, de que es una tarea que no es trivial de resolver para los seres humanos.
Con ello surge la dificultad de evaluar el rendimiento de los modelos desarrollados. Entre las múltiples aplicaciones que tiene este problema están mejorar la interacción
humano-computadora, aumentar la efectividad de los robots asistentes, aportar en el tratamiento de desórdenes cognitivos crónicos, asistir investigaciones policiales, entre otros.
También podrı́a ser utilizado como herramienta para inferir qué tan bueno es un actor o para juzgar si un sospechoso dice la verdad.
Se utiliza como base de entrenamiento la SASE-FE que fue diseñada especı́ficamente para resolver este problema en particular. Esta base contiene videos de sujetos realizando expresiones faciales, etiquetados según tipo de expresión y valor de verdad.
El principal análisis se basa en comparar redes neuronales profundas (feed-forward) con redes neuronales recurrentes. Este tipo particular de redes se caracteriza por su capacidad de extraer información de una secuencia y almacenarla a través del tiempo. Ası́, un video puede ser clasificado utilizando no sólo los atributos obtenidos en cada cuadro sino también los de sus antecesores.
Ante la escasez de datos para experimentar, se propone una nueva métrica para realizar un análisis más granular y la cual permite comparar con más detalle los resultados que arroja cada variante implementada. Los resultados sugieren que los rasgos determinantes que permiten distinguir entre una expresión sincera y una fingida están muy arraigados al sujeto que las ejecuta y, por lo tanto, desarrollar un clasificador universal (independiente
del sujeto en cuestión) parece ser poco viable.
En cuanto a la comparación entre los dos tipos de redes, si bien las recurrentes no mejoraron los valores obtenidos por las profundas, sı́ se destaca que obtuvieron resultados similares con menor cantidad de épocas de entrenamiento.
Palabras claves: Expresiones Faciales, Landmarks, Redes Neuronales Recurrentes.
a la mayorı́a de problemas que las computadoras aprendieron a resolver utilizando inteligencia artificial, de que es una tarea que no es trivial de resolver para los seres humanos.
Con ello surge la dificultad de evaluar el rendimiento de los modelos desarrollados. Entre las múltiples aplicaciones que tiene este problema están mejorar la interacción
humano-computadora, aumentar la efectividad de los robots asistentes, aportar en el tratamiento de desórdenes cognitivos crónicos, asistir investigaciones policiales, entre otros.
También podrı́a ser utilizado como herramienta para inferir qué tan bueno es un actor o para juzgar si un sospechoso dice la verdad.
Se utiliza como base de entrenamiento la SASE-FE que fue diseñada especı́ficamente para resolver este problema en particular. Esta base contiene videos de sujetos realizando expresiones faciales, etiquetados según tipo de expresión y valor de verdad.
El principal análisis se basa en comparar redes neuronales profundas (feed-forward) con redes neuronales recurrentes. Este tipo particular de redes se caracteriza por su capacidad de extraer información de una secuencia y almacenarla a través del tiempo. Ası́, un video puede ser clasificado utilizando no sólo los atributos obtenidos en cada cuadro sino también los de sus antecesores.
Ante la escasez de datos para experimentar, se propone una nueva métrica para realizar un análisis más granular y la cual permite comparar con más detalle los resultados que arroja cada variante implementada. Los resultados sugieren que los rasgos determinantes que permiten distinguir entre una expresión sincera y una fingida están muy arraigados al sujeto que las ejecuta y, por lo tanto, desarrollar un clasificador universal (independiente
del sujeto en cuestión) parece ser poco viable.
En cuanto a la comparación entre los dos tipos de redes, si bien las recurrentes no mejoraron los valores obtenidos por las profundas, sı́ se destaca que obtuvieron resultados similares con menor cantidad de épocas de entrenamiento.
Palabras claves: Expresiones Faciales, Landmarks, Redes Neuronales Recurrentes.