Esteban Mocskos, profesor del DC e Investigador de CONICET, abrió el ciclo de Conversaciones sobre Ciencia de Datos con una charla referente a HPC organizada por la Maestría en Data Mining.

El 11 de abril, Esteban Mocskos (profesor del Departamento de Computación de Exactas-UBA e Investigador de Conicet) abrió el ciclo de Conversaciones sobre Ciencia de Datos con la charla “Sistemas distribuidos, procesadores multicore y muchos datos para procesar: la combinación ideal para la Computación de Alto Rendimiento”. El evento estuvo organizado por la Maestría en Data Mining y se realizó en el Pabellón 2 de Ciudad Universitaria.

Para comenzar la disertación, el investigador hizo una introducción a la Computación de Alta Perfomance (HPC). Mocskos explicó que es una disciplina holística que involucra hardware, software y servicios para proveer la potencia necesaria para resolver problemas extensos y complejos en ciencia, ingeniería e industria. “Es la fórmula 1 de la industria de computación”, señaló. Y mostró el ejemplo de la supercomputadora Trinity instalada en Los Alamos National Laboratory.

En este sentido, detalló además que el tipo de problemas complejos que aborda HPC no se pueden resolver con una computadora de escritorio y tienen una escala determinada: toma mucho tiempo resolverlos, se necesita una gran cantidad de memoria (RAM), se tienen que realizar muchísimos experimentos parecidos y hay restricciones concretas de tiempo para encontrar resultados. La mayoría de estas temáticas están relacionadas con la innovación en la industria y su aplicación en áreas como energía, medio ambiente, biotecnología, medicina, ingeniería, etc.

A su vez, Mocskos se refirió a la evolución del procesador. “La cantidad de transistores sigue creciendo pero la velocidad de los núcleos individuales (core) casi no aumenta. Podríamos comprar un procesador de hasta 80 núcleos pero el desafío de aprovechar la potencia de un procesador es cómo distribuimos el tiempo de ejecución de una misma tarea computacional”. Para ilustrar este tema, el expositor planteó como ejemplo el problema de pintar una pared: en la medida que se contratan cada vez más pintores para pintar la misma pared más rápido, el problema es cómo se administra el proceso para que puedan trabajar de manera coordinada.

De este modo, puntualizó que cada tarea computacional se divide en dos partes: serial y paralelizable. Como todas las aplicaciones tienen una parte secuencial, el tiempo de cómputo de la aplicación paralela está acotado por esa sección serial (Ley de Ahmdahl). Esto implica dos cuestiones fundamentales 1) es necesario reducir lo más posible el tiempo de ejecución serial 2) en una tarea computacional existe un máximo de procesadores que conviene poner a trabajar en forma paralela, más allá de ese punto no se justifica seguir paralelizando la tarea.

¿Qué debe tener en cuenta un centro de HPC para aprovechar al máximo los recursos de cómputo? Cada centro de HPC tiene que configurar, optimizar aplicaciones y sistemas operativos. Allí el monitoreo es clave, con la escala de las infraestructuras también surgen aplicaciones con problemas de memoria (cuello de botella) y la necesidad de utilizar mejores redes (PARAMNet-3, Infiniband, GigE). Tener poder de cómputo no es barato y solamente con el hardware no alcanza. Según Mocskos, el equipo de operaciones de HPC necesita un alto grado de conocimiento y de disciplina para encarar la tarea.

Por último, el profesor de Exactas e investigador Conicet contó sobre los proyectos de los dos clústers que administra: CECAR en la facultad de Ciencias Exactas y Naturales-UBA y TUPAC en el Centro de Simulación Computacional para Aplicaciones Tecnológicas (CSC-CONICET). Cada uno se utiliza para resolver diversos problemas en la comunidad científico-tecnológica y tiene sus prestaciones particulares. CECAR fue actualizada con 18 CPU, 12 GPU y 7 nodos Intel. Por su parte, la supercomputadora TUPAC del CSC cuenta con un procesador 4200 AMD Opteron 6276, 18 TB de RAM, 72 TB de almacenamiento y conectividad I2.

En este contexto, Mocskos está desarrollando tres líneas de trabajo complementarias entre sí:

  • Aplicaciones: mecánica cuántica, mecánica molecular, dinámica molecular y química computacional. Ej. Fluorescence Emission Recipes and NumErical routines Toolkit (FERNET).
  • Sistemas distribuidos: infraestructuras de redes de comunicaciones que utilizan cibermonedas, Internet de las cosas y Fog-Edge Computing.
  • Arquitectura del procesador: nuevos diseños de procesadores y evaluación de tecnologías.

Post Sample Image

Esteban Mocskos