Refrigeración líquida, protagonista en centros de datos de inteligencia artificial

Este artículo fue publicado originalmente en el blog global de Schneider Electric por Steven Carlini

Hoy, la inteligencia artificial generativa está revolucionando la forma en que se diseñan los centros de datos y de computación.

Aunque la refrigeración líquida se considera, con razón, una tecnología emergente, no es nueva. Los primeros ordenadores centrales de IBM, que son de la década de 1960, y los superordenadores Cray incorporaban refrigeración por líquido.

Inclusive, el precio de compra del Cray incluía (como parte del paquete) un técnico a tiempo completo para la instalación, el funcionamiento y el mantenimiento.

Los tiempos han cambiado. Los servidores de computación acelerada incorporan entre 2 y 16 unidades de procesamiento gráfico (GPU) en cada servidor, además de unidades de procesamiento central (CPU) e incluso unidades de procesamiento de datos (DPU).

Estos servidores son los más productivos en el procesamiento de datos para el entrenamiento de modelos de inteligencia artificial y los más eficientes. Sin embargo, pueden consumir más de 20 veces la energía que los servidores en la nube estándar con CPU Intel.

Además, consideremos que 20 veces más potencia equivale a 20 veces más generación de calor por servidor.

El calor generado es tal que estos servidores solo pueden refrigerarse por líquido y vienen de serie con tuberías de entrada para el líquido frío y tuberías de salida para el líquido caliente.  

Cuando están completamente equipados, los últimos racks de servidores con GPU de Nvidia consumen 142 kW de potencia, y la densidad de potencia no deja de aumentar.

El método actual y la mejor solución de refrigeración líquida para los centros de datos de inteligencia artificial se denomina «directo al chip» o «placa fría».

En menos de un año está previsto el lanzamiento de la próxima versión, que requerirá unos 240 kW por rack. Pero el sistema «direct to chip», como su nombre indica, solo refrigera unos pocos componentes (los chips), no el resto de componentes del chasis o del rack, por lo que es necesario utilizar la refrigeración por aire como sistema complementario para el resto del servidor y el centro de datos.

La refrigeración complementaria no es insignificante y puede representar entre el 20% y el 30% de las necesidades de refrigeración.

Refrigeración para centros de datos, un sistema complejo

Si dirige una gran empresa, independientemente de su tamaño, o si es un operador con experiencia en centros de datos, es poco probable que cuente con los conocimientos técnicos internos necesarios para diseñar un sistema de refrigeración híbrido (líquido y aire) para estas densidades extremas.

Se requiere experiencia en el diseño, la adquisición, la implementación, el funcionamiento y el mantenimiento de sistemas de refrigeración híbridos.

El sistema «Direct to chip» requiere la instalación de varios circuitos de refrigeración: uno para la sala de servidores y otro para la disipación del calor. Las unidades de distribución de refrigeración (CDU) gestionan ambos circuitos y constituyen el punto de interfaz entre ambos.

A la hora de elegir un socio para diseñar estos sistemas de refrigeración, debe buscar uno que tenga experiencia con los componentes arquitectónicos de refrigeración, como los colectores, las tuberías, las unidades de distribución central (CDU), las enfriadoras, las bombas y los armarios.

Estos componentes deben funcionar como un sistema. Sin embargo, encontrar componentes que funcionen bien juntos, programarlos para que funcionen y, posteriormente, ajustarlos para obtener el máximo rendimiento supone todo un reto.

Se recomienda recurrir a proveedores con experiencia en tuberías, fluidos, presión y caudales para garantizar un funcionamiento fiable. Además, empresas como Schneider Electric, que ha adquirido Motivair, ofrecen garantías y cuentan con certificaciones de las empresas de GPU.

Los proveedores que cuentan con la experiencia y los conocimientos necesarios para ofrecerle garantías y certificaciones son los que ofrecen mayores posibilidades de que la implementación sea un éxito, tanto en la fase inicial como en las fases posteriores.

El papel de la simulación y el software

Debido a las densidades extremas, diseñar un sistema mediante un enfoque de prueba y error alargará considerablemente el «tiempo de enfriamiento» y las posibilidades de que tenga éxito son escasas.

Es recomendable elegir un socio que utilice modelado de gemelos digitales y simulaciones para demostrar su enfoque en el mundo digital antes de implementarlo en el mundo físico.

Además, los proveedores preferentes colaborarán con los principales fabricantes de GPU.

Habrán realizado pruebas físicas en el laboratorio o en los lugares de implementación. 

En Schneider Electric colaboramos con NVIDIA en los diseños de referencia para sus DGX SuperPods antes de los nuevos lanzamientos de plataformas que incorporan las nuevas generaciones de GPU.

Debido a su complejidad y a los retos que plantea, en desarrollamos soluciones de refrigeración prefabricadas, como el IT Pod, que ya han sido probadas y permiten una implementación más rápida y predecible para la computación acelerada de alta densidad. 

El tiempo de inactividad no es una opción

Con estas altas densidades en un rack de TI, cualquier interrupción en el suministro de líquido que refrigera los chips provocará una «limitación térmica» y un sobrecalentamiento en cuestión de segundos.

La redundancia debe estar integrada en la unidad de distribución de refrigeración (CDU). Por ejemplo, las bombas redundantes y las fuentes de alimentación dobles deberían ser la norma.

Además, los sistemas de respaldo de energía inmediata, como sistemas de alimentación ininterrumpida, deben utilizarse en las CDU para garantizar un funcionamiento continuo y la transición a soluciones de respaldo a más largo plazo, como los generadores.

Es necesario utilizar software de detección de fugas en el espacio sin utilizar del centro de datos, ya que incluso una pequeña fuga puede provocar la caída de un servidor de IA o de todo un clúster.

El software basado en inteligencia artificial también debe utilizarse de forma proactiva para mitigar los riesgos, aprovechando los datos de los sensores de todo el sistema de refrigeración para realizar análisis predictivos que permitan identificar patrones y posibles problemas.    

La optimización requiere inteligencia artificial

Una vez que el sistema de refrigeración líquida esté en funcionamiento, lo más recomendable es evaluar y mejorar la eficiencia y la utilización de los recursos, ya que la precisión de la refrigeración líquida es fundamental para las cargas de trabajo de IA.

Unos pocos grados de más provocarán una disminución del rendimiento de las GPU y podrían ralentizar considerablemente el entrenamiento y la inferencia de la IA.

El software de inteligencia artificial permite ajustar dinámicamente y en tiempo real los parámetros de los sistemas de refrigeración, como las temperaturas del agua de entrada y de retorno, así como el caudal de aire y de agua, para adaptarlos a las necesidades del momento.

Los sistemas de inteligencia artificial pueden incluso aprender de la información operativa y mejorar continuamente el rendimiento del sistema de refrigeración.

Schneider Electric, pioneros en refrigeración líquida

Las innovaciones en el ámbito de las GPU se suceden a un ritmo vertiginoso, lo que supone un enorme desafío para los fabricantes de sistemas de refrigeración a la hora de alcanzar el rendimiento deseado.

A la hora de elegir un proveedor, conviene informarse sobre sus planes de desarrollo, ya que los futuros servidores de GPU tendrán una densidad térmica aún mayor, lo que complicará su implementación.   

En Schneider Electric contamos con la experiencia necesaria: ya en 2019, Motivair era el proveedor de refrigeración líquida para los superordenadores Cray con densidades de hasta 400 kW por rack.

Sí, la refrigeración líquida es una tecnología emergente que se está generalizando para facilitar el cálculo acelerado.

Las empresas que deseen implementar la inteligencia artificial deberán asociarse con un proveedor con experiencia que sea líder tanto en la actualidad como en el futuro. Descubre cómo en Schneider Electric podemos ayudarte preparar el centro de datos para IA para el futuro con refrigeración líquida.

Añadir comentario

Todos los campos son requeridos.