Magerit es el nombre de uno de los superordenadores de propósito general y sin uso de aceleradores gráficos más potentes de España. En junio de 2011 logra el puesto 136 en el TOP500,[2] convirtiéndose en el mayor superordenador español y alcanzando el puesto 18 en la lista Green500[3] como el superordenador español más respetuoso con el medio ambiente. Este equipo pertenece a la Universidad Politécnica de Madrid y está instalado en el Centro de Supercomputación y Visualización de Madrid situado en el Campus de Excelencia Internacional de Montegancedo, una de las sedes del Parque Científico y Tecnológico de la UPM.
Asimismo, es el equipo español que ha alcanzado el segundo mejor puesto en la lista TOP500: 34º, en noviembre de 2006.[4] En el momento de su puesta en funcionamiento en dicho año 2006, alcanzó el puesto 2º de España, 9º de Europa y 34º del mundo en la lista TOP500[5] y ocupó el puesto 275 en la primera lista Green500 publicada.[6]
El nombre Magerit proviene de los primeros nombres del asentamiento del cual surgió el actual Madrid. Aunque su origen no está claro su significado hace referencia a la abundancia de agua en la zona (sería algo como "lugar de agua", "cauce de agua", "abundancia de agua", "madre de agua" o "tierra rica en agua").
Historia
Magerit 0 (2005)
El superordenador surge del acuerdo entre IBM y la Universidad Politécnica de Madrid para instalar un superordenador en el recién creado CeSViMa que se instala provisionalmente en dependencias de la Facultad de Informática de Madrid.
Fruto de este acuerdo se crea un superordenador compuesto por 124 nodos nodos eServer BladeCenter JS20 compuestos por 2 cores en dos procesadores IBM PowerPC single-core 970FX de 64 bits a 2'2 GHz, 4 GiB de RAM y 40 GB de disco duro local. Estos nodos alcanzan una potencia de 8'8 GFLOPS por core.
Este equipamiento queda integrado en la primera versión de Magerit.
Magerit 1 (2006)
Poco después, el CeSViMa entra a formar parte de la Red Española de Supercomputación y se realiza una ampliación de la máquina hasta alcanzar los 1204 nodos (los nodos adquiridos fruto del acuerdo de 2005 se integran en esos 1204 nodos) con una potencia de 14 Tflops[7] considerándose esta la primera versión del superordenador al entrar en la lista TOP500 en el segundo mejor puesto alcanzado por un superordenador español (34º del mundo en noviembre de 2006). En el momento de su puesta en funcionamiento en el año 2006, alcanzó el puesto 2º de España, 9º de Europa y 34º del mundo en el listado TOP500[5] y el puesto 275 en la primera lista Green500 publicada[8]
A inicios de 2007, el nuevo superordenador entra en servicio admitiendo los primeros usuarios asignados por el comité de acceso de la RES (el acuerdo de constitución indica que se cede el 68% de los recursos a estos usuarios) junto a usuarios que acceden a través del comité de acceso del propio centro (que utilizan el 32% restante).
En mayo de 2008, el CeSViMa se traslada a un nuevo edificio perteneciente al Parque Científico y Tecnológico de la UPM en el mismo Campus en el que se encuentra la Facultad de Informática dónde se encontraba su sede hasta el momento (a apenas 500 metros de distancia). Junto al traslado se realizan diversas mejoras en el sistema como el cambio del switch de comunicaciones, del sistema de almacenamiento o la inclusión de nodos de cómputo BladeCenter JS21, reemplazando los 124 originales. Esta modificaciones suponen un incremento de casi 2 TeraFLOPS de potencia, alcanzando los 15.95 TeraFLOPS[9] y una redistribución del reparto (59.7% planificado por el comité de acceso de la RES y 40.3% gestionado por el comité de acceso del CeSViMa/UPM). Sin embargo, esta actualización no evita la salida de la lista TOP500 en noviembre de 2008.
Magerit 2 en ese momento es un clúster de 1204 nodos (1036 nodos eServer BladeCenter JS20 y 168 nodos eServer BladeCenter JS21) que utilizan como sistema operativo una distribución SLES9.
Dependiendo del tipo de nodo se tienen dos configuraciones diferentes aunque completamente compatibles:
JS21: 4 cores en dos procesadores IBM PowerPC dual-core 970MP de 64 bits a 2'3 GHz, 8 GiB de memoria RAM y 80 GB de disco duro local. Estos nodos alcanzan una potencia de 9'2 GFLOPS por core.
El sistema dispone de una capacidad de almacenamiento distribuida de 192 TB en un sistema de ficheros distribuido y tolerante de fallos de IBM denominado GPFS. La infraestructura de acceso a este sistema de almacenamiento permite alcanzar anchos de banda cercanos a 1 Tbit/s.
La conexión entre los elementos de cómputo se realiza mediante una red Myrinet de baja latencia (2.6 - 3.2 μs[10]). Asimismo, cada nodo dispone de otras dos conexiones Ethernet de 1 Gbit/s auxiliares para que su gestión no interfiera con los cálculos de usuarios realizados en los nodos. La comunicación con el exterior se realiza a través de enlaces de 1 Gbit/s y 10 Gbit/s.
Un año después, en 2009, se realiza una actualización del sistema operativo (se migra a la distribución SLES10) y software de sistema utilizado en el superordenador.
Durante el año 2010, se adquiere un sistema de almacenamiento con una capacidad de 1 PB que complementa al sistema de almacenamiento del propio Magerit.
Magerit 2 (2011)
En el año 2011 se produce una profunda renovación del equipo reemplazando todos los nodos de cómputo y la red de interconexión con la última tecnología disponible.[11] Esta segunda configuración logra el puesto 136 en la lista TOP500[12] convirtiéndose en el mayor superordenador español[13] y alcanza el puesto 18 en la lista Green500[3] la mejor de un superordenador español. Nuevamente se modifica la distribución de recursos: el 80% se gestiona directamente por el comité de acceso del CeSViMa y el 20% restante es planificado por el comité de acceso de la RES. A pesar de reducir el porcentaje gestionado por la RES se incrementa 4-5 veces la cantidad de recursos que se aportan a la red.
Esta configuración convierte a Magerit en el mayor superordenador de España en la lista TOP500.[2] En el momento de su puesta en funcionamiento en el año 2011, alcanzó el puesto 1º de España, 44.º de Europa y 136.º del mundo en la lista TOP500[14] y el puesto 18º en la lista Green500[3]
Se mantiene la arquitectura cluster con por 245 nodos PS702 cada uno de ellos configurado con 16 cores en dos procesadores IBM POWER7 (8-core) de 64 bits a 3'0 GHz, 32 GiB de RAM y 300 GB de disco duro local. Estos nodos alcanzan una potencia de 18'38 GFLOPS por core.
Los nodos se interconectan con una red Infiniband de alto ancho de banda (40 Gbit/s) y baja latencia (0.3 microsegundos). Se mantienen las dos redes Ethernet independientes para funciones auxiliares: una red de administración y despliegue de imágenes y otra red para acceso al subsistema de almacenamiento.
La instalación se realizó en el tiempo récord de un mes,[15] un tiempo muy corto para este tipo de instalaciones. Existe un vídeo-timelapse del montaje de Magerit que muestra todo el proceso.
La renovación no incluye el sistema de almacenamiento conservando el existente tras la actualización de 2008: 192 TB bajo GPFS con un ancho de banda cercano a 1 Tbit/s.
Magerit 3 (2019)
Tras varios intentos, en 2019 se aborda una nueva renovación del equipo reemplazando todos los nodos de cómputo y la red de interconexión. La adquisición se realiza mediante un procedimiento abierto[16] en cuyo Pliego Prescripciones Técnicas se especifica que el sistema se utilizará en un primer momento para cómputo y en una segunda fase para virtualización de servicios.
La configuración final es nuevamente un cluster compuesto por 68 nodos Lenovo ThinkSystem SD530 cada uno de los cuales dispone de 2 procesadores Intel Xeon Gold 6230 de 20 cores a 2.10 GHz (1.344 GFLOPS), 192 GiB de RAM y 480 GB de disco duro local (SSD). Los nodos están interconectados mediante dos redes 25 Gbps de baja latencia una de ellas con arquitectura flat-tree destinada en exclusiva al paso de mensajes.
La pila de software está basada en software Open Source. Utiliza CentOS como sistema operativo, SLURM como planificador y se reutilizan los 192 TB de almacenamiento pero basado en Lustre.
Uso de la máquina
Magerit ejecuta trabajos con grandes necesidades de cómputo, como investigaciones acerca del universo,[17] simulaciones de física nuclear y nuevos materiales,[18] química o modelos climáticos. Un ejemplo es el proyecto Blue Brain, que pretende realizar una simulación del cerebro y que utilizó recursos de cómputo y otros servicios en sus inicios.
El sistema ejecuta trabajos batch que se planifican mediante un gestor de colas. Debido a las características del sistema las ejecuciones típicas usan cientos de CPUs durante unos pocos días lo que impide el uso habitual de un sistema informático obligando a mantener el equipo en funcionamiento ininterrumpido todo el año.
Además, este sistema permite planificar globalmente el uso de recursos para incrementar su aprovechamiento al máximo al tiempo que se proporciona un uso equitativo de los mismos a todos los usuarios.