El nuevo chatbot de Deepseek ha tenido un impacto significativo en el mercado de IA, presentándose con la declaración intrigante:
Hola, fui creado para que puedas preguntar cualquier cosa y obtener una respuesta que pueda sorprenderte.
Este modelo de IA no solo se ha convertido en un competidor formidable, sino que también ha contribuido a una de las mayores caídas de precios de las acciones de NVIDIA.
Imagen: ensigame.com
Lo que distingue el modelo de Deepseek son sus innovadores métodos de arquitectura y capacitación, que incluyen:
Predicción múltiple (MTP): esta técnica permite que el modelo predice múltiples palabras a la vez analizando diferentes partes de una oración, mejorando significativamente tanto la precisión como la eficiencia.
Mezcla de expertos (MOE): utilizando 256 redes neuronales, con ocho activadas para cada tarea de procesamiento de tokens, esta arquitectura acelera la capacitación de IA y mejora el rendimiento.
Atención latente de múltiples cabezas (MLA): al centrarse en las partes más significativas de una oración y extraer detalles clave repetidamente, MLA reduce la posibilidad de faltar información crucial, lo que permite a la IA capturar matices importantes.
Deepseek, una prominente startup china, afirma haber desarrollado un modelo de IA competitivo a un costo mínimo, afirmando que solo gastaron $ 6 millones en capacitar a Deepseek V3 utilizando solo 2048 procesadores gráficos.
Imagen: ensigame.com
Sin embargo, los analistas del semianálisis han revelado que Deepseek opera una vasta infraestructura computacional, que comprende alrededor de 50,000 GPU de la tolva NVIDIA, incluidas 10,000 unidades H800, 10,000 H100 y GPU H20 adicionales. Estos recursos se distribuyen en múltiples centros de datos y se utilizan para capacitación de IA, investigación y modelado financiero.
La inversión total de la compañía en servidores es de aproximadamente $ 1.6 mil millones, con gastos operativos estimados en $ 944 millones.
Deepseek es una subsidiaria del Fondo de cobertura chino High-Flyer, que estableció la startup como una división separada centrada en la IA en 2023. A diferencia de la mayoría de las nuevas empresas que dependen de los proveedores de la nube, Deepseek posee sus centros de datos, lo que permite el control total sobre la optimización del modelo de IA y la implementación de innovación más rápida. La compañía sigue siendo autofinanciada, mejorando su flexibilidad y velocidad de toma de decisiones.
Imagen: ensigame.com
Además, algunos investigadores de Deepseek ganan más de $ 1.3 millones anuales, atrayendo al máximo talento de las principales universidades chinas (la compañía no contrata especialistas en el extranjero).
A pesar de estas inversiones, el reclamo de Deepseek de capacitar a su último modelo por solo $ 6 millones parece poco realista. Esta cifra solo representa el uso de la GPU durante la capacitación previa y excluye los gastos de investigación, el refinamiento del modelo, el procesamiento de datos y los costos generales de infraestructura.
Desde su inicio, Deepseek ha invertido más de $ 500 millones en desarrollo de IA. Su estructura compacta permite la implementación activa y efectiva de innovaciones de IA, a diferencia de las empresas más grandes y burocráticas.
Imagen: ensigame.com
El ejemplo de Deepseek muestra que una compañía de IA independiente bien financiada puede competir con los líderes de la industria. Sin embargo, los expertos señalan que el éxito de la compañía se debe en gran medida a importantes inversiones, avances técnicos y un equipo fuerte, en lugar de un "presupuesto revolucionario" para el desarrollo del modelo de IA.
Aún así, los costos de Deepseek siguen siendo más bajos que los de sus competidores. Por ejemplo, Deepseek gastó $ 5 millones en R1, mientras que ChatGPT4O costó $ 100 millones para entrenar.