
Defensa Tesis Licenciatura Belén Páez y Facundo Totaro
12 diciembre, 2024 @ 1:00 pm - 2:00 pm
Título Páez: Contextualización de palabras ambiguas: comparación del comportamiento humano y de redes basadas en transformers
Título Totaro: Contextualización de palabras ambiguas en modelos de lenguaje: generación de significados
Director: Bruno Bianchi
Co-Director: Juan Kamienkowski
Jurados: Francisco Valentini, Laura Alonso Alemany
Resumen Conjunto:
Los modelos de lenguaje del estado del arte, basados en transformers, son capaces de interpretar texto de forma muy similar al humano. En estos modelos las palabras son representadas como vectores, llamados embeddings. Previo a ser procesadas por el modelo de lenguaje, estos vectores tienen una representación estática y descontextualizada. Al ser procesados por el modelo, las componentes del vector cambian, siendo afectadas por el contexto en el que se encuentran. Es decir se contextualizan. Este proceso, que ocurre sucesivamente en cada capa de los modelos, resulta particularmente interesante para el estudio de la desambiguación semántica. En esta tesis se estudió el sesgo semántico en estos modelos y su similitud con los humanos. Este tipo de sesgo es aquel que está relacionado con qué interpretación se tiene de una palabra ambigua bajo un contexto en el cual no es claro el significado de la misma. Utilicemos como ejemplo la oración “Él estaba parado al lado del banco”. Una posible interpretación que se le puede dar a la palabra banco es la del mobiliario que se puede encontrar en una plaza para sentarse. Otra es la entidad bancaria. Si ahora sumamos la oración “Estaba por ingresar a retirar dinero cuando de repente escuchó un ruido fuerte. Él estaba parado al lado del banco.”. Al procesar esta oración se esperaría observar que el embedding de la palabra banco se encuentre más cerca de palabras relacionadas a un contexto financiero que a palabras relacionadas a un mueble. La presente tesis surge como continuación de un trabajo preliminar realizado en el grupo de trabajo. En el mismo se estudió la relación entre el sesgo semántico en humanos y en GPT-2. En dicho trabajo se llegó a la conclusión de que para analizar con precisión el sesgo semántico a nivel de los embeddings de un modelo de lenguaje es necesario definir el significado de cada una de las palabras ambiguas utilizadas en base a listas de palabras relacionadas, en lugar de utilizar solo una palabra. Por otro lado, también se propuso analizar el sesgo semántico a nivel de cada una de las capas del modelo. Los resultados de la presente tesis muestran una mejoría en la medición del sesgo semántico generado en los modelos de lenguaje al utilizar los significados definidos con las listas de palabras, en relación a los significados usados en el trabajo preliminar. Además, al comparar la similitud del sesgo computacional en cada capa de GPT-2 con el sesgo generado en humanos, vemos que las capas intermedias guardan una mejor relación con el comportamiento humano.