Aunque hoy se hable de la refrigeración líquida en centros de datos como una tecnología emergente, no es nueva. Los primeros mainframes de IBM en los años 60 y los superordenadores Cray ya la incorporaban. De hecho, en la compra de un sistema Cray se incluía un técnico a tiempo completo para su instalación, operación y mantenimiento.
Por qué la IA está acelerando la demanda de refrigeración líquida
La irrupción de la IA generativa está redefiniendo el diseño del cómputo y de los centros de datos. Los servidores de computación acelerada integran ahora entre dos y dieciséis GPU (unidades de procesamiento gráfico) por servidor, junto a CPU e incluso DPU. Son potentes máquinas de cálculo optimizadas para el entrenamiento de modelos de IA, pero consumen más de 20 veces la energía de un servidor cloud estándar basado en CPU Intel… y generan 20 veces más calor por servidor.
Ese nivel de calor implica que estos servidores sólo pueden refrigerarse con líquido. La mayoría ya sale de fábrica con tuberías de entrada y retorno para hacer circular el refrigerante.

Gestión del calor: potencia, densidad y retos de diseño
Las exigencias térmicas por rack se han disparado con cada nueva generación de servidores acelerados por GPU. A plena carga en un rack, los servidores actuales basados en GPU de NVIDIA requieren 132 kW, y las densidades siguen subiendo. La próxima generación, prevista en menos de un año, demandará 240 kW por rack.
El método dominante es la refrigeración directa al chip mediante placas frías (direct-to-chip / cold plate). Pero, como su propio nombre sugiere, sólo enfría los chips, no el resto de componentes del chasis o del rack. Al cubrir el sistema líquido únicamente los chips, todavía se necesita refrigeración por aire suplementaria para aproximadamente el 20%–30% de la carga térmica total.
Una arquitectura de refrigeración compleja
Tanto si eres una gran empresa como un operador experimentado de centros de datos, es improbable que dispongas internamente de todo el know‑how para diseñar y desplegar sistemas híbridos (líquido + aire) a estas densidades extremas. Se requiere pericia especializada para diseñar, adquirir, desplegar, operar y mantener estos sistemas.
Los sistemas direct-to-chip necesitan dos circuitos separados: uno en la sala de TI y otro para la disipación de calor. Las unidades de distribución de refrigeración (CDU) actúan de interfaz entre ambos. Al diseñar, selecciona un socio con experiencia en toda la arquitectura: colectores (manifolds), tuberías, CDU, enfriadoras (chillers), bombas y armarios.
Todos los componentes deben funcionar de forma integrada: compatibilidad, controles coordinados y ajuste de rendimiento. Conviene elegir proveedores con dominio de tubería, dinámica de fluidos, presión y caudales, y, a ser posible, que ofrezcan garantías y cuenten con certificaciones de los fabricantes de GPU.
El papel de la simulación y el software
Con densidades térmicas tan altas, el método de prueba y error alarga el “tiempo hasta la puesta en refrigeración” y reduce las probabilidades de éxito. Elige un partner que use modelado con gemelo digital y simulaciones para validar virtualmente el diseño del sistema de refrigeración de alta densidad antes del despliegue.
Debe priorizarse a los proveedores que colaboran directamente con fabricantes de GPU, han realizado ensayos en laboratorio o cuentan con despliegues probados. Algunos ofrecen sistemas de refrigeración pre‑ingenierizados y prefabricados que aceleran la implantación y reducen riesgos.
El tiempo de inactividad no es una opción
A estas densidades, incluso una breve interrupción del flujo de líquido puede provocar limitación térmica o sobrecalentamiento en cuestión de segundos. Las CDU deben incluir redundancia: doble bomba y doble fuente de alimentación como estándar.
Los SAI (sistemas de alimentación ininterrumpida) tienen que respaldar a las CDU para asegurar continuidad durante las transiciones a sistemas de respaldo o generadores. También es crítica la detección de fugas en la sala blanca del centro de datos; una fuga mínima puede tumbar un servidor o un clúster.
La optimización también requiere IA
Una vez en marcha, tu sistema de refrigeración líquida necesita ajuste continuo. La precisión importa: incrementos mínimos de temperatura pueden degradar el rendimiento de las GPU y ralentizar el entrenamiento de modelos de IA.
El software con IA puede ajustar dinámicamente parámetros del sistema de refrigeración—como temperaturas del agua, caudales y flujo de aire—en tiempo real. Incluso aprende de los datos operativos para optimizar progresivamente el rendimiento.
Elegir proveedores con visión de futuro
La velocidad de evolución de las GPU ejerce una presión intensa sobre los proveedores de refrigeración. Al seleccionar un socio, pregunta por su hoja de ruta tecnológica: ¿podrá soportar futuras generaciones de GPU con densidades térmicas aún mayores?
La refrigeración líquida puede seguir etiquetándose como “emergente”, pero se está convirtiendo rápidamente en infraestructura esencial. Las compañías que aspiren a escalar en IA deben asociarse con proveedores capaces de cubrir las necesidades de refrigeración líquida actuales y futuras.
Artículo original publicado en Forbes por Steve Carlini.
Añadir comentario