Los nuevos procesadores Blackwell de Nvidia están experimentando graves problemas de sobrecalentamiento cuando se instalan en racks de servidores de alta capacidad, lo que está causando retrasos y preocupación entre sus principales clientes.
Según fuentes cercanas al tema, los GPU Blackwell diseñados para inteligencia artificial y computación de alto rendimiento se sobrecalientan cuando se utilizan en servidores que contienen 72 procesadores. Estos sistemas pueden consumir hasta 120kW por rack, lo que genera serios desafíos térmicos.
Esta situación ha obligado a Nvidia a rediseñar múltiples veces la configuración de sus racks de servidores, ya que el sobrecalentamiento no solo limita el rendimiento sino que también puede dañar los componentes.
Grandes empresas tecnológicas como Google, Meta y Microsoft, que utilizan estos GPU para entrenar sus modelos de lenguaje más avanzados, han expresado su preocupación por posibles retrasos en la implementación de los nuevos procesadores en sus centros de datos.
Para combatir estos problemas, Nvidia ha solicitado a sus proveedores realizar diversos cambios en el diseño de los racks para mejorar la refrigeración. La compañía está trabajando estrechamente con sus socios para desarrollar revisiones de ingeniería que optimicen el sistema de enfriamiento.
Este no es el primer obstáculo que enfrenta Blackwell. Anteriormente, Nvidia tuvo que retrasar la producción debido a un defecto de diseño que afectaba el rendimiento. Los GPU B100 y B200 utilizan la tecnología de empaquetado CoWoS-L de TSMC, que requiere una precisión extrema en el posicionamiento de los puentes LSI para funcionar correctamente.
A pesar de que Nvidia describe estos cambios como parte del proceso normal de desarrollo, los retrasos continúan afectando los planes de lanzamiento. La producción en masa de la versión final de los GPU Blackwell comenzó a finales de octubre, lo que significa que los primeros envíos no comenzarán hasta finales de enero.