
Defensa Tesis Licenciatura Maia Tanenzapf
17 julio, 2020 @ 1:00 pm - 2:00 pm
Título: «Repeticiones Maximales para la Estimación de la Diversidad en
Metagenomas»
Directores: Pablo Turjanski, Esteban Lanzarotti
Juradas: Verónica Becher, Maria Elena Buemi
Día y hora: Viernes 17 de Julio, 13:00hs
Resumen
Los avances en las tecnologías de secuenciación de ADN producidos en
la última década permitieron generar grandes cantidades de datos
nuevos para analizar. A partir de esto, aplicaciones como la
metagenómica tomaron relevancia. Esta consiste en analizar el ADN de
los diferentes microorganismos que componen una comunidad a partir de
muestras provenientes de distintas fuentes, por ejemplo, de estudios
ambientales de suelo o de análisis clínicos de sangre. Las
limitaciones actuales de las tecnologías de secuenciación no permiten
obtener los genomas completos de los microorganismos presentes en
estas muestras, es por esto que uno de los desafíos que se presenta en
la actualidad es poder determinar las especies que componen un
metagenoma a partir de sus lecturas. En este trabajo buscamos un
método para la estimación de la diversidad de metagenomas de bacterias
a partir del cálculo de intervalos maximales de repetición. Para esto
utilizamos una adaptación del algoritmo propuesto por Ilie et al. para
el cálculo de estos intervalos y analizamos la relación entre
distintas propiedades de los mismos y la cantidad de genomas
utilizando metagenomas simulados. A partir de este análisis formulamos
un modelo que, utilizando los intervalos de repeticiones maximales de
un metagenoma, permite estimar la cantidad de genomas que lo integran.
Evaluamos nuestro método en metagenomas simulados a partir de genomas
de bacterias conocidos obteniendo una buena estimación de la cantidad
de genomas que lo componen. Adicionalmente utilizamos un conjunto de
metagenomas de virus generado en el trabajo de Roux et al. de manera
de proveer una validación independiente de los datos usados para
obtener el modelo. En este caso obtuvimos un error de escala muy alto
al estimar la diversidad, pudiendo deberse a que los datos utilizados
fueron generados a partir de virus mientras que nuestro modelo utilizó
bacterias o a que en el trabajo de Roux se utilizan entre 500 y 1000
virus mientras que nosotros utilizamos solamente 40 bacterias. Sin
embargo, sí encontramos cierta correlación al utilizar nuestro método
para ordenar los metagenomas según la cantidad de genomas.