Il nuovo chatbot di DeepSeek ha avuto un impatto significativo nel mercato dell'IA, presentandosi con la dichiarazione intrigante:
Ciao, sono stato creato in modo da poter chiedere qualsiasi cosa e ottenere una risposta che potrebbe persino sorprenderti.
Questo modello AI non è solo diventato un formidabile concorrente, ma ha anche contribuito a uno dei maggiori calo dei prezzi delle azioni di Nvidia.
Immagine: Ensigame.com
Ciò che distingue il modello di DeepSeek è la sua architettura innovativa e metodi di formazione, che includono:
Multi-Token Prediction (MTP): questa tecnica consente al modello di prevedere più parole contemporaneamente analizzando diverse parti di una frase, migliorando significativamente sia l'accuratezza che l'efficienza.
Miscela di esperti (MOE): utilizzando 256 reti neurali, con otto attivate per ogni attività di elaborazione dei token, questa architettura accelera la formazione dell'intelligenza artificiale e migliora le prestazioni.
Attenzione latente a più testa (MLA): concentrandosi sulle parti più significative di una frase ed estraendo ripetutamente i dettagli chiave, MLA riduce la possibilità di perdere informazioni cruciali, consentendo all'IA di catturare importanti sfumature.
DeepSeek, un'importante startup cinese, afferma di aver sviluppato un modello di intelligenza artificiale competitivo a un costo minimo, affermando che hanno speso solo $ 6 milioni per allenare Deepseek V3 utilizzando solo 2048 processori grafici.
Immagine: Ensigame.com
Tuttavia, gli analisti della seminalisi hanno rivelato che DeepSeek gestisce una vasta infrastruttura computazionale, che comprende circa 50.000 GPU di Nvidia Hopper, tra cui 10.000 unità H800, 10.000 H100 e GPU H20 aggiuntive. Queste risorse sono distribuite su più data center e utilizzati per la formazione, la ricerca e la modellazione finanziaria dell'IA.
L'investimento totale della società nei server è di circa $ 1,6 miliardi, con spese operative stimate in $ 944 milioni.
DeepSeek è una consociata dell'Hedge Fund cinese High-Flyer, che ha stabilito la startup come una divisione separata focalizzata sull'intelligenza artificiale nel 2023. A differenza della maggior parte delle startup che si basano su fornitori di cloud, DeepSeek possiede i suoi data center, consentendo il pieno controllo sull'ottimizzazione del modello AI e nell'implementazione più rapida dell'innovazione. L'azienda rimane autofinanziata, migliorando la sua flessibilità e la velocità decisionale.
Immagine: Ensigame.com
Inoltre, alcuni ricercatori di DeepSeek guadagnano oltre $ 1,3 milioni all'anno, attirando i migliori talenti dalle principali università cinesi (la società non assume specialisti stranieri).
Nonostante questi investimenti, l'affermazione di Deepseek di addestrare il suo ultimo modello per soli $ 6 milioni sembra irrealistica. Questa cifra rappresenta solo l'utilizzo della GPU durante il pre-allenamento ed esclude le spese di ricerca, il perfezionamento del modello, l'elaborazione dei dati e i costi complessivi di infrastruttura.
Fin dalla sua istituzione, DeepSeek ha investito oltre $ 500 milioni nello sviluppo dell'IA. La sua struttura compatta consente un'implementazione attiva ed efficace delle innovazioni di intelligenza artificiale, a differenza di aziende più grandi e burocratiche.
Immagine: Ensigame.com
L'esempio di Deepseek mostra che un'azienda di intelligenza artificiale indipendente ben finanziata può competere con i leader del settore. Tuttavia, gli esperti notano che il successo dell'azienda è in gran parte dovuto a investimenti significativi, scoperte tecniche e un team forte, piuttosto che un "budget rivoluzionario" per lo sviluppo del modello AI.
Tuttavia, i costi di Deepseek rimangono inferiori a quelli dei suoi concorrenti. Ad esempio, DeepSeek ha speso $ 5 milioni in R1, mentre GATGPT4O costa $ 100 milioni per allenarsi.