Cargando Eventos

Título: Análisis de coocurrencia de repeticiones maximales en familias de proteínas utilizando reglas de asociación
Directores: Diego U. Ferreiro y Pablo Turjanski
Jurado: Cecilia Ruz y Alejandro Nadra

Resumen
Existen ciertas repeticiones de caracteres en secuencias, las repeticiones maximales, que han sido estudiadas para buscar patrones recurrentes que puedan caracterizar a diferentes familias de proteínas a partir de sus secuencias de aminoácidos. Por otra parte, el análisis de reglas de asociación es una técnica de Data Mining utilizada para encontrar, de forma automática, relaciones interesantes entre elementos de una base de datos. En un trabajo previo se vincularon las reglas de asociación con las repeticiones maximales existentes en las secuencias de proteínas de la familia Ankyrin.

En el presente trabajo, extendemos dicho análisis para poder involucrar a otras dos familias (TPR y LRR). Encontramos diferencias de órdenes de magnitud entre las cantidades de reglas generadas para estas tres familias de proteínas, que se explican por diferencias observadas en las frecuencias de sus repeticiones maximales. Además, resulta que estas familias no comparten reglas de asociación, debido a que sus conjuntos de repeticiones maximales frecuentes casi no tienen elementos en común.

Presentamos algunas optimizaciones temporales y espaciales para el proceso de generación de reglas de asociación (con y sin pérdida de reglas) e investigamos una forma de obtener los mismos conjuntos de reglas a partir de los k-meros de las secuencias pero sin calcular sus repeticiones maximales. Utilizamos una medida, el lift, para analizar la relevancia de las reglas generadas y observamos que resulta insuficiente cuando se aplica al dominio de nuestro problema. Por último, extendemos una herramienta para la visualización de reglas y proteínas (Protein Rule Visualization Tool) para permitir la exploración de datos provenientes de múltiples familias.