Si bien la refrigeración líquida se considera, con razón, una tecnología emergente, no es nueva. Los primeros mainframes de IBM, que datan de la década de 1960, y las supercomputadoras Cray ya contaban con refrigeración líquida. Cabe destacar que el precio de compra de la Cray incluía un técnico a tiempo completo para la instalación, operación y mantenimiento.
Los tiempos han cambiado. Hoy en día, la IA generativa está transformando el diseño de los centros de datos y computación. Los servidores de computación acelerada incorporan de 2 a 16 unidades de procesamiento gráfico (GPU) en cada servidor, así como unidades centrales de procesamiento (CPU) e incluso unidades de procesamiento de datos (DPU). Estos servidores son los más potentes y eficientes para el entrenamiento de modelos de IA, pero pueden consumir más de 20 veces la potencia de los servidores en la nube con CPU Intel estándar. Y 20 veces más potencia equivale a 20 veces más calor generado por servidor. Se genera tanto calor que estos servidores solo pueden refrigerarse con líquido y vienen de serie con tuberías de entrada para el líquido frío y tuberías de salida para el líquido caliente.
Cuando se instalan completamente en un rack, los últimos racks de servidores GPU basados en Nvidia requieren 142 kW de potencia, y las densidades siguen aumentando. El método actual y la mejor solución de refrigeración líquida para centros de datos de IA se denomina refrigeración directa al chip o placa fría. En menos de un año, se prevé el lanzamiento de la próxima evolución, que requerirá alrededor de 240 kW por rack. Sin embargo, como su nombre indica, la refrigeración directa al chip solo refrigera algunos componentes (los chips), no los demás componentes del chasis o rack, por lo que se debe utilizar refrigeración por aire como refrigeración complementaria para el resto del servidor y del centro de datos . Esta refrigeración complementaria es importante y puede representar entre el 20 % y el 30 % de las necesidades de refrigeración.
La refrigeración es una arquitectura compleja.
Si dirige una empresa, independientemente de su tamaño, o si es un operador experimentado de centros de datos, es poco probable que cuente con la experiencia de ingeniería interna necesaria para diseñar un sistema de refrigeración híbrido (líquido y aire) para estas densidades extremas. Se requiere experiencia en el diseño, adquisición, implementación, operación y mantenimiento de sistemas de refrigeración híbridos. La refrigeración directa al chip requiere la construcción de múltiples circuitos de refrigeración: uno para la sala de TI y otro para la disipación de calor. Las unidades de distribución de refrigeración (CDU) gestionan ambos circuitos y actúan como interfaz entre ellos.
A la hora de elegir un socio para diseñar estos sistemas de refrigeración, es fundamental encontrar uno con experiencia en componentes arquitectónicos como colectores, tuberías, unidades de distribución de refrigerante (CDU), enfriadoras, bombas y gabinetes. Estos componentes deben funcionar como un sistema integrado. Sin embargo, encontrar componentes compatibles, programarlos para su funcionamiento y optimizarlos posteriormente para obtener el máximo rendimiento es todo un reto. Se recomienda recurrir a proveedores con experiencia en tuberías, fluidos, presión y caudales para garantizar un funcionamiento fiable. Además, proveedores como Schneider Electric, que adquirió Motivair , ofrecen garantías y cuentan con certificaciones de fabricantes de GPU. Los proveedores con experiencia y conocimientos, que además pueden demostrarlo con garantías y certificaciones, ofrecen las mejores posibilidades de éxito en la implementación, tanto en la fase inicial como en la continua.

El papel de la simulación y el software
Debido a las densidades extremas, diseñar un sistema mediante un método de ensayo y error prolongará considerablemente el tiempo de enfriamiento y las probabilidades de éxito son bajas. Es recomendable elegir un socio que utilice modelos y simulaciones de gemelos digitales para validar su enfoque en el entorno digital antes de implementarlo en el mundo físico.
Además, los proveedores preferidos colaborarán con los principales fabricantes de GPU. Habrán realizado pruebas físicas en laboratorio o en sitios de implementación. Schneider Electric colabora con NVIDIA en diseños de referencia para sus DGX SuperPods antes del lanzamiento de nuevas plataformas que incorporan las nuevas generaciones de GPU. Debido a la complejidad y el desafío, Schneider también desarrolla soluciones de refrigeración prefabricadas, como el IT Pod, que ya han sido probadas y ofrecen una implementación más rápida y predecible para la computación acelerada de alta densidad.
El tiempo de inactividad no es una opción.
En estas altas densidades en un rack de TI, cualquier interrupción en el suministro de líquido que enfría los chips provocará una limitación térmica y un sobrecalentamiento en segundos. Es fundamental incluir redundancia en la unidad de distribución de refrigeración (CDU). Por ejemplo, las bombas redundantes y las fuentes de alimentación duales deberían ser el estándar. Además, se deben utilizar sistemas de respaldo de energía inmediatos, como sistemas de alimentación ininterrumpida ( UPS ), en las CDU para garantizar el funcionamiento continuo y la transferencia a soluciones de respaldo a largo plazo, como generadores. Asimismo, se debe utilizar software de detección de fugas en el espacio no utilizado del centro de datos, ya que incluso una pequeña fuga puede provocar la caída de un servidor de IA o de todo un clúster de IA. El software con capacidad de IA también debe utilizarse de forma proactiva para la mitigación de riesgos, aprovechando los datos de los sensores en todo el sistema de refrigeración para realizar análisis predictivos que identifiquen patrones y posibles problemas.
La optimización requiere IA
Una vez que el sistema de refrigeración líquida esté operativo, la mejor práctica consiste en evaluar y mejorar su eficiencia y la utilización de recursos, ya que la precisión de la refrigeración líquida para cargas de trabajo de IA es fundamental. Una temperatura ligeramente superior a la recomendada provocará una degradación del rendimiento de las GPU y, potencialmente, una ralentización drástica del entrenamiento y la inferencia de la IA. El software de IA puede utilizarse para ajustar dinámicamente los parámetros del sistema de refrigeración, como las temperaturas del agua de suministro y retorno, el flujo de aire y el flujo de agua, en tiempo real para satisfacer las necesidades actuales. Los sistemas de IA incluso pueden aprender de la retroalimentación operativa y mejorar continuamente el rendimiento del sistema de refrigeración.
Schneider Electric está a la vanguardia en refrigeración líquida.
La evolución de las GPU avanza a un ritmo vertiginoso, lo que supone una enorme presión para que los proveedores de sistemas de refrigeración alcancen el rendimiento deseado. Al elegir un proveedor, conviene preguntar sobre sus planes de desarrollo de soluciones, ya que los futuros servidores GPU tendrán una densidad térmica aún mayor, lo que dificultará su implementación.
Schneider Electric cuenta con la experiencia necesaria: en 2019, Motivair fue el proveedor de refrigeración líquida para las supercomputadoras Cray con densidades de hasta 400 kW por rack. La refrigeración líquida es una tecnología emergente que impulsa la computación acelerada. Las empresas que deseen implementar IA deberán asociarse con un proveedor experimentado que lidere el sector hoy y en el futuro. Descubra cómo Schneider Electric puede ayudarle a preparar su centro de datos de IA para el futuro con refrigeración líquida .
Añadir comentario