Cargando Eventos

Título: «Funciones de distancia para la clasificación de familias de proteínas»
Director: Pablo Turjanski
Codirector: Diego Ferreiro
Jurados: Facundo Carrillo y Rodrigo Gonzalo Parra

Resumen:
Las proteínas son grandes moléculas compuestas por cadenas de aminoácidos. Una posible abstracción de la estructura de una proteína es a través de una secuencia de caracteres, donde cada aminoácido se corresponde con un caracter. Esta representación se corresponde con lo que se denomina estructura primaria de una proteína.

En la naturaleza, existen ciertas proteínas que presentan patrones estructurales recurrentes en su estructura primaria. Estas macromoléculas pueden ser clasificadas de acuerdo al largo de la mínima unidad de repetición que las constituyen. Aquellas para las cuales sus patrones de repetición son cortos (menores o iguales a 5 aminoácidos), se denominan fibrilares; para cuyas repeticiones se componen de 6 a 60 aminoácidos se denominan repetitivas; y, finalmente las restantes, se denominan globulares.

En el presente trabajo abordamos el desafío de proponer una función de distancia entre familias de proteínas, para su clasificación, a partir de un subconjunto de sus patrones de repetición maximales (MRs).

Como paso previo a la propuesta de una función de distancia, propusimos la estructura de Trie para contener los prefijos de los MRs de las familias de las proteínas. Partiendo de esa estructura exploramos la posibilidad de utilizar algoritmos existentes dentro del campo de las redes de computadoras para la comparación de dichas estructuras. Los resultados obtenidos en esta dirección no fueron exitosos, pues no pudimos encontrar un algoritmo que cumpliera con nuestros requerimientos.

A partir del resultado anterior, decidimos proponer una función propia de distancia entre familias de proteínas. Exploramos diversas alternativas, siempre basadas en prefijos de MRs. A todas ellas las pusimos a prueba utilizando como caso de estudio más de 50 familias de proteínas naturales (repetitivas y globulares) y de control. Los resultados obtenidos nos permitieron, en algunas casos, discriminar entre familias de proteínas naturales y de control. Sin embargo, no hemos podido hallar una función que permita agrupar, por un lado familias de proteínas repetitivas, y por el otro globulares.

En vista de los resultados obtenidos se puede considerar la posibilidad de que para lograr el objetivo de separar las familias de proteínas globulares de las repetitivas, no alcance sólo con los patrones ya que los mismos quizás no posean suficiente información. Tal vez, para poder distinguirlas falte, a modo de ejemplo, información acerca del código de plegado; o quizás sea necesario utilizar otra representación del alfabeto. Queda como línea futura de trabajo pensar alternativas para poder lograr incorporar nueva información.