El nuevo chatbot de Deepseek cuenta con una introducción impresionante: "Hola, fui creado para que puedas preguntar cualquier cosa y obtener una respuesta que incluso te sorprenda". Esta IA, un producto de la startup china Deepseek, se ha convertido rápidamente en un jugador importante, incluso causando caídas significativas en el precio de las acciones de Nvidia.

El éxito de Deepseek proviene de sus innovadores métodos de arquitectura y capacitación. Las tecnologías clave incluyen:
- Predicción de múltiples token (MTP): en lugar de predecir las palabras una por una, MTP pronostica múltiples palabras simultáneamente, aumentando la precisión y la eficiencia.
- Mezcla de expertos (MOE): esta arquitectura utiliza 256 redes neuronales en Deepseek V3, activando ocho para cada tarea de procesamiento de tokens, acelerando significativamente la capacitación y mejorando el rendimiento.
- Atención latente múltiple (MLA): MLA extrae repetidamente detalles clave de los fragmentos de texto, asegurando que no se pierda información crucial, lo que lleva a una comprensión más matizada de los datos de entrada.

Si bien Deepseek inicialmente reclamó un costo de capacitación notablemente bajo de $ 6 millones para Deepseek V3 utilizando 2048 GPU, el semianálisis reveló una infraestructura mucho más sustancial: aproximadamente 50,000 GPU de tolva NVIDIA (incluidas 10,000 H800, 10,000 H100 y H20 adicionales) se extendieron entre múltiples centros de datos. Esto representa una inversión de servidor total de aproximadamente $ 1.6 mil millones, con gastos operativos estimados en $ 944 millones.
Deepseek, una subsidiaria del Fondo de cobertura chino High-Flyer, posee sus centros de datos, otorgando un control incomparable sobre la optimización e implementación de innovación. Este enfoque autofinanciado mejora la flexibilidad y la velocidad de toma de decisiones. Además, la compañía atrae al máximo talento, con algunos investigadores ganando más de $ 1.3 millones anuales, principalmente reclutando de las principales universidades chinas.

El reclamo de costos de capacitación de $ 6 millones de Deepseek es engañoso; Solo refleja el uso de GPU previo al entrenamiento, excluyendo la investigación, el refinamiento, el procesamiento de datos e infraestructura. La inversión real de la compañía en desarrollo de IA supera los $ 500 millones. Sin embargo, su estructura magra permite una implementación de innovación eficiente en comparación con organizaciones más grandes y burocráticas.

La historia de Deepseek demuestra la capacidad de una compañía de IA independiente bien financiada para competir con los gigantes. Sin embargo, su éxito está innegablemente vinculado a miles de millones en inversiones, avances tecnológicos y un equipo fuerte. La narrativa del "presupuesto revolucionario" es una simplificación excesiva significativa. Sin embargo, los costos de Deepseek siguen siendo significativamente más bajos que los competidores. Por ejemplo, Deepseek gastó $ 5 millones en R1, mientras que ChatGPT4 costó $ 100 millones.