Cargando Eventos

Título: Modelado computacional de mimetización prosódica entre hablantes para mejorar la interacción humano-computadora.

Director: Agustín Gravano.

Jurados:
– Ana Amador  (Departamento de Física, FCEyN, UBA)
– David Escudero Mancebo  (Depto. de Informática, Universidad de Valladolid, España)
– Vanina Martínez  (Departamento de Computación, FCEyN, UBA)

La defensa tendrá lugar con modalidad virtual. Link a la transmisión: https://youtu.be/_0pQKGVc7RQ

Resumen:

Mejorar la interacción humano-computadora es un área de investigación que día a día adquiere mayor relevancia práctica. Una manera de llevar adelante dicho intercambio, y que cobra cada vez mayor protagonismo, es a través de sistemas de diálogo hablado (SDSs, por sus siglas en inglés). Por SDSs se hace referencia a sistemas computacionales que poseen la capacidad de entablar una conversación oral con sus usuarios. Dentro del área de estudio de los SDSs, una hipótesis que resulta razonable considerar como válida es la que afirma que a medida que aumenta la naturalidad del intercambio entre un SDS y sus usuarios, el sistema tendrá una mayor aceptación y eventualmente logrará ser más efectivo. En este contexto se entiende como un comportamiento natural a aquél que se espera siga un humano expuesto a un intercambio similar. De esta manera, esta hipótesis reconoce que para mejorar la eficacia de los SDSs resulta primordial entender cómo se produce la comunicación oral entre personas.

El habla como mecanismo de transmisión de información consta de dos canales principales: el canal verbal y el canal vocal. El canal verbal incorpora el contenido lingüístico de lo que se dice (en términos simples, la secuencia de palabras dichas). El canal vocal transmite contenido paralingüístico principalmente a través de variaciones en la prosodia, término que hace referencia a la manera en que se produce el habla o, en otras palabras, a cómo se dicen las palabras. Por ejemplo, la prosodia engloba características tales como la velocidad/tasa del habla, el tono del habla, la intensidad/volumen del habla, las pausas entre palabras, o la calidad de la voz (e.g., susurros, ronquera, voz clara). Centrándonos en cómo se producen los diálogos humano-humano, un fenómeno documentado por la literatura previa es la tendencia que tienen los interlocutores a coordinar comportamientos en distintas dimensiones del habla; por ejemplo: el léxico y la sintaxis utilizada, el uso de marcadores del discurso o, en lo que hace foco esta tesis, la prosodia utilizada. Este fenómeno, al que comúnmente se lo llama ‘mimetización’ (o ‘entrainment’, como se lo conoce en la literatura en inglés), ha sido asociado a variables sociales de los diálogos humano-humano tales como la percepción de competencia, inteligencia y agradabilidad de los interlocutores.

Esta tesis tiene como objetivo investigar qué impacto tiene incorporar en SDSs políticas de mimetización prosódica. Con este fin se siguieron dos enfoques complementarios. En primer lugar, se llevaron adelante estudios de corpus con el fin de caracterizar mejor cómo se asocia la mimetización prosódica con distintas variables sociales en diálogos humano-humano. Por ejemplo, con cómo son percibidos los diálogos en términos de naturalidad, con qué tan satisfechos reportaron estar los interlocutores de un diálogo con el mismo, entre otros. En estos estudios se hizo hincapié en analizar corpus que contuviesen un gran volumen de diálogos naturales y que variasen en lo referido a idioma hablado (español e inglés), dominio y variables sociales medidas. También se hizo hincapié en utilizar y desarrollar técnicas modernas de análisis de datos con el fin de caracterizar asociaciones complejas entre la mimetización prosódica y distintas variables sociales de los diálogos. En segundo lugar, en esta tesis se diseñaron, implementaron y ejecutaron diversos experimentos conductuales de laboratorio en los cuales los participantes debieron interactuar con SDSs que adaptan sus atributos acústico-prosódicos a los de los usuarios. Estos experimentos se enfocaron en estudiar la relación existente entre distintas políticas de mimetización prosódica y la confianza de los usuarios en estos sistemas. Los experimentos variaron en lo referido a la tarea experimental llevada a cabo, idioma analizado y en lo referido a las políticas de mimetización implementadas (por ejemplo, mimetización a nivel global o mimetización a nivel de actos de diálogo). El objetivo final de esta segunda línea de trabajo es doble: evaluar si SDSs que siguen políticas de mimetización prosódica son preferidos por sobre SDSs que no lo hacen y caracterizar qué políticas de mimetización prosódica tienen efectos positivos y negativos sobre el desempeño de los SDSs.

Los resultados de los estudios de corpus sugieren que la asociación entre la mimetización prosódica y las variables sociales de los diálogos es menos lineal que lo sugerido por la literatura previa. A modo de ejemplo, no necesariamente se observa que mayor mimetización prosódica se asocia a variables sociales positivas; también se observan asociaciones negativas y relaciones positivas pero con comportamientos más complejos (e.g., con la antisincronía prosódica). Aún más, los resultados también sugieren que la caracterización de estas asociaciones varía entre los corpus estudiados. Los resultados de los experimentos de laboratorio sugieren que efectivamente la mimetización prosódica impacta sobre la confianza en los SDSs. Aun así, los mismos sugieren que este impacto es sumamente sutil y complejo de caracterizar. Por ejemplo, sugieren la existencia de interacciones al mimetizar sobre la base de distintas combinaciones de atributos prosódicos (e.g., el efecto observado de mimetizar en tasa del habla no es el mismo si los sistemas también mimetizan en tono e intensidad que si no lo hacen). Tomada en su conjunto, esta tesis presenta avances en lo que refiere a medir y entender el fenómeno de la mimetización prosódica en sí, así como también en lo referido a los efectos que tiene incluir este comportamiento en SDSs.

Palabras clave: Diálogos; Sistemas de Diálogo Hablado; Asistentes Virtuales; Prosodia; Mimetización Prosódica; Variables Sociales de los Diálogos; Confianza; Sociolingüística; Actos de Diálogo.