El diseño y la implementación de centros de datos de IA avanzan a un ritmo increíble: 3 maneras de abordar un panorama cambiante.

Durante los últimos 25 años, los centros de datos para la nube y las empresas han estado dominados por servidores de propósito general X86 tipo «caja de pizza». La densidad de potencia promedio comenzó siendo modesta y creció lentamente de 3 kilovatios (kW) por rack a alrededor de 10 kW a medida que sus unidades centrales de procesamiento (CPU) se volvían más potentes. El edificio promedio de un centro de datos tenía una vida útil de al menos 30 años y experimentaba muchos ciclos de renovación de servidores. Era común construir una instalación con espacio adicional para el crecimiento a medida que cambiaban los requisitos de potencia y refrigeración de los servidores.

Basándome en los envíos de unidades de procesamiento gráfico (GPU) para aplicaciones de servidores de IA, preveo que el 60 % de todos los servidores que se instalen serán compatibles con aplicaciones de IA. Estos servidores de computación acelerada son verdaderas máquinas de trabajo y cuentan con numerosas GPU (hasta 16), múltiples CPU y unidades de procesamiento de datos (DPU). Requieren mayor potencia para su funcionamiento y la mayoría necesita refrigeración líquida.

Para complicar aún más las cosas a los operadores de centros de datos (por si fuera poco), el ritmo de evolución de los líderes en GPU como Nvidia es prácticamente anual, y el consumo de energía casi se duplica con cada lanzamiento.

La  evolución de las GPU de IA de Nvidia  y la densidad promedio por rack en sus configuraciones DGX SuperPod resultan reveladoras. En 2022, los DGX SuperPod equipados con GPU A100 presentaban una densidad de potencia promedio de aproximadamente 25 kW por rack. Esta cifra aumentó significativamente en 2023 con la introducción de la H100, alcanzando cerca de 40 kW por rack. Esta tendencia continuó en 2024, cuando la generación GH200 elevó las densidades a 72 kW por rack.

De cara al futuro, el lanzamiento en 2025 de la GB200 de Nvidia prácticamente duplicará esa cifra, alcanzando densidades de rack de alrededor de 132 kW. Si se cumplen las previsiones, la generación VR200 de 2026 supondrá otro salto cualitativo, llegando potencialmente a los 240 kW por rack.

Alimentación y refrigeración para la próxima generación de GPU.

Si la velocidad de la evolución no fuera suficiente, los nuevos niveles de densidad extrema plantean serios desafíos en cuanto a refrigeración y suministro eléctrico. Cuanto mayor sea la densidad, más difícil será diseñar un centro de datos híbrido con refrigeración líquida y por aire (ambas necesarias) a 132 kW/rack en comparación con 10 kW/rack, debido al espacio físico, el riesgo de sobrecalentamiento y la necesidad de mantener la resiliencia y la eficiencia.

Recuerde que la migración gradual hasta 10 kW/rack se produjo a lo largo de décadas, y los diseños se implementaron, probaron y optimizaron. Ahora no contamos con ese lujo. Tampoco tendremos múltiples ciclos de actualización de TI, ya que la potencia y la refrigeración necesarias para la próxima generación de GPU serán mucho mayores y no se requerirán mejoras significativas en la alimentación y la distribución de energía, ni refrigeración líquida adicional con racks especiales, colectores, unidades de distribución de refrigeración ni enfriadores.

Los centros de datos optimizados para usar las GPU más recientes y potentes deben diseñarse anticipándose a la densidad de potencia necesaria, con uno o dos años de antelación. Nuevamente, se tratará de diseños nuevos sin la oportunidad de realizar pruebas y optimizaciones, y la mayoría de los operadores de centros de datos no cuentan con grandes equipos de diseñadores para crear nuevos diseños para cada nueva generación de Nvidia.

Diseño para la computación acelerada: estrategias prácticas

Las GPU, tal como las utilizan los diseñadores de centros de datos, no supusieron un desafío significativo a lo largo de los años, y no se requirió ni se desarrolló experiencia en este ámbito. Para las organizaciones que se enfrentan a este panorama en constante evolución, sugiero lo siguiente:

1. Simular el rendimiento con gemelos digitales.

Ante los desafíos de densidad, es posible realizar diseños teóricos. Sin embargo, estos requieren más tiempo, un ingeniero altamente cualificado y las primeras pruebas solo pueden realizarse tras la implementación física. El software avanzado de diseño y simulación puede ayudar a crear réplicas digitales del sistema de alimentación, los sistemas de refrigeración y, si es posible, de todo el centro de datos.

Si bien este proceso es más sencillo, rápido y fiable, es importante tener en cuenta que el software requiere capacitación. Es fundamental adquirir confianza mediante la simulación de escenarios básicos antes de pasar a modelos de sistemas más complejos.

El software de diseño eléctrico optimiza el proceso de diseño mediante la automatización de tareas. Realizar cálculos precisos al inicio del proceso de diseño puede reducir errores y costes. Con la ayuda de herramientas de simulación, se puede comprender a fondo el rendimiento esperado y su impacto en la disponibilidad ante diferentes escenarios de fallo.

2. Comience con diseños de referencia probados.

Los proveedores de infraestructura de energía y refrigeración publicarán diseños de referencia para centros de datos como punto de partida para el despliegue de centros de datos de IA de alta densidad, coincidiendo con los lanzamientos de Nvidia, debido a las densidades extremas que implican.

Disponibles públicamente en los sitios web de los proveedores en formatos de ingeniería básicos o muy detallados, estos diseños de referencia incluyen planos especiales, esquemas, listas de materiales y especificaciones de rendimiento. Proporcionan los componentes básicos necesarios para agilizar el proceso de diseño. Los ingenieros consultores locales pueden adaptar fácilmente estos diseños y realizar modificaciones para cumplir con la normativa local. Este método es más rápido que diseñar desde cero, pero no tan rápido como usar módulos prefabricados.

3. Acelerar la construcción con módulos prefabricados.

Con una planificación adecuada y teniendo en cuenta los plazos de entrega, la prefabricación será el método de implementación más rápido y predecible. Hay módulos prefabricados disponibles para la sala de informática, los sistemas de refrigeración y los sistemas de alimentación eléctrica.

Estos módulos vienen en diversas capacidades y tamaños, y una vez completada la preparación del sitio, funcionan como soluciones plug-and-play. Fabricados y probados en fábrica, pueden reducir el tiempo y los costos de diseño, a la vez que aceleran la implementación de centros de datos. Si bien los módulos de alimentación y refrigeración en contenedores y montados sobre patines se han utilizado durante algún tiempo, ahora están surgiendo nuevos módulos prefabricados diseñados específicamente para clústeres de IA.

Por ejemplo, un módulo de clúster de IA viene completamente ensamblado, con bastidores, conductos de alimentación, distribución de energía, conexiones de refrigeración líquida y colectores. Para su implementación, los usuarios solo necesitan conectar las fuentes de alimentación y refrigeración e instalar los servidores de computación acelerada.

Mejorar el éxito de la implementación

El proceso de diseño e implementación de centros de datos de IA con computación acelerada difiere del de los centros de datos tradicionales, dado el vertiginoso ritmo de desarrollo de los chips de IA. Este ritmo plantea grandes desafíos para las empresas que desean implementar las GPU más recientes de inmediato, ya que deben desarrollar diseños completamente nuevos para las crecientes densidades de potencia.

A medida que los diseñadores avanzan en el proceso de diseño y operación, aprovechar una combinación de estas prácticas puede ayudar a garantizar resultados óptimos.

Este artículo fue publicado previamente en Forbes.

Añadir comentario

Todos los campos son requeridos.