La startup china DeepSeek, que recientemente causó revuelo al afirmar que su modelo de IA R1 costó solo $6 millones en entrenamiento, parece tener una realidad muy diferente según un nuevo informe de la firma de análisis SemiAnalysis.
De acuerdo con la investigación, DeepSeek cuenta con una infraestructura de computación masiva que incluye aproximadamente 50,000 GPUs Hopper de Nvidia, distribuidas entre 10,000 unidades H800, 10,000 H100 y compras adicionales del modelo H20. Esta infraestructura está valorada en cerca de $1.6 mil millones, con costos operativos estimados en $944 millones.
La empresa, que surgió del fondo de inversión chino High-Flyer en 2023, se ha mantenido autofinanciada y ha invertido más de $500 millones en desarrollo tecnológico. Una característica distintiva es que opera sus propios centros de datos, lo que le permite mayor control sobre sus experimentos y optimizaciones.
En cuanto al talento, DeepSeek se destaca por contratar exclusivamente dentro de China, principalmente de instituciones como la Universidad de Pekín y la Universidad de Zhejiang. Los investigadores de IA en la empresa pueden ganar más de $1.3 millones, superando la compensación de otras firmas chinas líderes.
La afirmación reciente sobre el costo de $6 millones para entrenar su último modelo ha generado mucha expectativa. Sin embargo, esta cifra solo representa el tiempo de GPU para el pre-entrenamiento, sin incluir investigación, refinamiento del modelo, procesamiento de datos o gastos de infraestructura.
El informe de SemiAnalysis sugiere que el éxito de DeepSeek no se debe a una revolución en la eficiencia del entrenamiento de IA, sino a inversiones estratégicas multimillonarias, avances técnicos y una fuerza laboral altamente competitiva. Como señaló Elon Musk, la competitividad en IA requiere inversiones de miles de millones por año, algo que DeepSeek parece estar cumpliendo.