Defensa Tesis Licenciatura Mauro Giordano
diciembre 2 @ 1:00 pm - 2:00 pm
Título: Estudio de la homología de proteínas mediante embeddings basados en repeticiones maximales de sus secuencias
Director: Dr. Pablo Turjanski
Co-Director: Dr. Diego Ferreiro
Jurados:
Dra. Rocío Espada
Dr. Esteban Lanzarotti
Resumen:
El estudio de homología de proteínas y su clasificación en familias son pilares de la biología molecular, sin embargo los métodos tradicionales suelen ser costosos, lentos y dependientes de heurísticas con múltiples parámetros ajustables. Este trabajo introduce una estrategia no supervisada para abordar este desafío, buscando representar el espacio de secuencias de proteínas de una forma que permita medir distancias con significado biológico. El método formulado se basa en la construcción de embeddings a partir de definir un “vocabulario biológico” basado en las repeticiones maximales (MRs) de aminoácidos presentes en un corpus de secuencias. El pipeline desarrollado computa estos patrones y permite entrenar un modelo FastText (basado en skip-gram) para aprender una representación espacial de las secuencias. A partir de estudiar la composición y naturaleza de los MRs, definimos tres criterios de filtrado de patrones para construir tres corpus de entrenamiento distintos. Analizamos los espacios resultantes de estos tres modelos aplicando las etiquetas originales de familias sobre las secuencias y mostramos que la representación vectorial captura de forma no supervisada relaciones intrínsecas de homología entre sus cadenas de aminoácidos. Mostramos que al entrenar los embeddings con todos los MRs computados, la separabilidad entre grupos de familias disminuye pero aumenta la capacidad de distinción entre secuencias sintéticas y naturales, mientras que al reducir la redundancia en el corpus de entrenamiento, una menor cantidad de redundancia en los MRs utilizados genera mejores agrupaciones pero dificulta más la distinción entre secuencias sintéticas y naturales, particularmente las que responden a un reordenamiento aleatorio de sus aminoácidos. Gracias a transformaciones realizadas con t-SNE, presentamos visualizaciones de los espacios resultantes para estudiar la estructura de los clústers formados. Observamos que al aumentar el valor de perplexity, estas transformaciones amplifican la separación de los clústers, a costa de alterar las distancias locales entre objetos vecinos, y sus resultados están fuertemente determinados por la calidad de las agrupaciones presentes en el espacio original de alta dimensionalidad. Por último, planteamos nuevos experimentos y mejoras posibles para construir un clasificador de secuencias de proteínas que pueda ser utilizado en aplicaciones reales.
