Título: Análisis y desarrollo de representaciones generales de audio
Directora: Dra. Luciana Ferrer
Director adjunto: Dr. Pablo Riera
Consejero de estudios: Dr. Pablo Negri
Jurados:
Dr. Bernardo Gabriel Mindlin Departamento de Física, FCEyN, UBA
Dra. Alicia Lozano Diez, Universidad Autónoma de Madrid, España
Dr. Leandro Di Persia, Universidad Nacional del Litoral
Link de youtube: https://youtube.com/live/5PI5F08_BrE?feature=share
Resumen:
El aprendizaje de representaciones ha sido un pilar fundamental en el avance del aprendizaje profundo, al permitir la reutilización de modelos para resolver tareas diversas de manera eficiente en términos de cómputo y datos. En particular, el aprendizaje no supervisado ha permitido aprovechar la abundancia de datos sin etiquetar para aprender representaciones ricas y útiles en escenarios con escasez de datos anotados, simplificando el desarrollo de modelos y favoreciendo la democratización de la inteligencia artificial.
Este trabajo doctoral se desarrolló entre los años 2020 y 2025, en un período marcado por el auge del aprendizaje auto-supervisado de representaciones de habla y, hacia el final, por la extensión de los modelos de lenguaje a otras modalidades distintas al texto, como el audio e imágenes. En ese contexto de éxito de los modelos de representaciones de habla, y la tendencia a crear sistemas cada vez más generalistas, este trabajo consistió en el desarrollo de un modelo de representaciones de audio que fuera útil para múltiples tareas del dominio del habla, y de otros dominios como la música y los sonidos ambientales. Este desarrollo culminó con EnCodecMAE, un modelo basado en masked autoencoders y pre-entrenado con señales de audio diversas provenientes de Audioset, LibriLight y Free Music Archive.
Este modelo tiene la particularidad de utilizar EnCodec, un codec de audio neuronal, como señal objetivo. EnCodecMAE alcanzó resultados comparables o superiores al estado del arte en varias tareas de habla, música y audio general. Además de presentar EnCodecMAE y mostrar los resultados de su evaluación, realizamos un estudio de ablación, explorando el efecto que tienen distintos aspectos de su diseño, como parámetros de enmascarado, representaciones de entrada, conjuntos de preentrenamiento, etc.
Por último, realizamos un análisis del alineamiento entre distintas representaciones de audio, incluyendo EnCodecMAE, y representaciones cerebrales obtenidas a partir de resonancias magnéticas funcionales de la corteza auditiva. Mostramos que estos modelos, a pesar de no ser entrenados explícitamente para aproximar la actividad cerebral, exhiben un alineamiento creciente con la misma durante el preentrenamiento, y que el desempeño de las representaciones en distintas tareas se correlaciona con la similaridad con las representaciones cerebrales. Una implicancia práctica de este hallazgo es la posibilidad de utilizar medidas de alineamiento con la corteza auditiva como un indicador del desempeño general del modelo, con un costo computacional inferior al de benchmarks exhaustivos como HEAREval.