Cargando Eventos

Titulo: Explorando las dinámicas de AI Safety via Debate
Director: Sergio Abriola
Jurados: Esteban Lanzarotti, Victor Braberman

Resumen:
El desarrollo de sistemas de inteligencia artificial (IA) capaces de comprender y ejecutar tareas complejas requiere que estos sistemas aprendan objetivos y preferencias humanas sofisticadas que no sabemos especificar formalmente. Además, fenómenos como reward hacking o malgeneralización son el resultado esperable de los métodos de entrenamiento actuales, incluso ante la presencia de buenas especificaciones.
El debate, como se propone en el artículo AI safety via debate, es una técnica prometedora de alineamiento que intenta entrenar sistemas de IA honestos, haciendo que produzcan argumentos a través de un juego de suma cero donde dos agentes argumentan sobre una pregunta o acción propuesta, y un juez humano evalúa la veracidad y utilidad de la información proporcionada.
Este trabajo se centra en explorar empíricamente las dinámicas argumentativas entre agentes de IA y un juez (también implementado como otro sistema de IA). Para esto se llevaron a cabo experimentos donde se analiza la factibilidad de que agentes débiles den señales de supervisión para el entrenamiento de agentes más fuertes utilizando el método del debate.
En uno de los experimentos se utilizó un clasificador de imágenes, en el que dos agentes, modelados utilizando MCTS (Monte-Carlo Tree Search), seleccionaron píxeles en cada turno con el objetivo de obtener una clasificación como número impar o par respectivamente. En otro experimento se utilizaron modelos de lenguaje grandes (LLMs) donde el debate consistió en que dos agentes proporcionen argumentos en turnos utilizando pasajes de texto. Un agente intenta convencer al juez, que consiste en otro LLM, de una respuesta correcta y el otro de una respuesta incorrecta a una pregunta de opción múltiple, utilizando una versión modificada del dataset QuALITY.