De nieuwe chatbot van Deepseek heeft een aanzienlijke impact gehad op de AI -markt en introduceert zichzelf met de intrigerende verklaring:
Hallo, ik ben gemaakt, zodat je alles kunt vragen en een antwoord kunt krijgen dat je misschien zou kunnen verrassen.
Dit AI -model is niet alleen een formidabele concurrent geworden, maar heeft ook bijgedragen aan een van de grootste aandelenkoersdaling van Nvidia.
Afbeelding: ensigame.com
Wat het model van DeepSeek onderscheidt, zijn de innovatieve architectuur- en trainingsmethoden, waaronder:
Multi-token voorspelling (MTP): deze techniek stelt het model in staat om meerdere woorden tegelijk te voorspellen door verschillende delen van een zin te analyseren, waardoor zowel nauwkeurigheid als efficiëntie aanzienlijk wordt verbeterd.
Mix van experts (MOE): gebruik van 256 neurale netwerken, met acht geactiveerd voor elke tokenverwerkingstaak, deze architectuur versnelt AI -training en verbetert de prestaties.
Multi-head latente aandacht (MLA): door zich te concentreren op de belangrijkste delen van een zin en herhaaldelijk belangrijke details te extraheren, vermindert MLA de kans op het missen van cruciale informatie, waardoor de AI belangrijke nuances kan vastleggen.
Deepseek, een prominente Chinese startup, beweert een competitief AI -model te hebben ontwikkeld tegen een minimale kosten, waarin staat dat ze slechts $ 6 miljoen hebben uitgegeven aan de training Deepseek V3 met slechts 2048 grafische processors.
Afbeelding: ensigame.com
Uit analisten uit de semianyse heeft echter aangetoond dat Deepseek een enorme computationele infrastructuur heeft, bestaande uit ongeveer 50.000 NVIDIA -hopper GPU's, waaronder 10.000 H800 -eenheden, 10.000 H100s en extra H20 GPU's. Deze bronnen zijn verspreid over meerdere datacenters en worden gebruikt voor AI -training, onderzoek en financiële modellering.
De totale investering van het bedrijf in servers is ongeveer $ 1,6 miljard, met operationele kosten geschat op $ 944 miljoen.
Deepseek is een dochteronderneming van het Chinese hedgefonds High-Flyer, dat de startup heeft opgericht als een afzonderlijke AI-gerichte divisie in 2023. In tegenstelling tot de meeste startups die afhankelijk zijn van cloudproviders, bezit Deepseek zijn datacenters, waardoor volledige controle over AI-modeloptimalisatie en snellere innovatie-implementatie mogelijk is. Het bedrijf blijft zelf gefinancierd en verbetert zijn flexibiliteit en besluitvormingssnelheid.
Afbeelding: ensigame.com
Bovendien verdienen sommige onderzoekers van Deepseek per jaar meer dan $ 1,3 miljoen en trekken ze toptalent aan van toonaangevende Chinese universiteiten (het bedrijf huurt geen buitenlandse specialisten in).
Ondanks deze investeringen lijkt de claim van Deepseek om zijn nieuwste model te trainen voor slechts $ 6 miljoen onrealistisch. Dit cijfer is alleen rekening gehouden met GPU-gebruik tijdens pre-training en sluit onderzoekskosten, modelverfijning, gegevensverwerking en algemene infrastructuurkosten uit.
Sinds de oprichting heeft Deepseek meer dan $ 500 miljoen geïnvesteerd in AI -ontwikkeling. De compacte structuur maakt een actieve en effectieve implementatie van AI -innovaties mogelijk, in tegenstelling tot grotere, meer bureaucratische bedrijven.
Afbeelding: ensigame.com
Het voorbeeld van Deepseek laat zien dat een goed gefinancierd onafhankelijk AI-bedrijf kan concurreren met marktleiders. Experts merken echter op dat het succes van het bedrijf grotendeels te wijten is aan belangrijke investeringen, technische doorbraken en een sterk team, in plaats van een "revolutionair budget" voor AI -modelontwikkeling.
Toch blijven de kosten van Deepseek lager dan die van zijn concurrenten. Deepseek besteedde bijvoorbeeld $ 5 miljoen aan R1, terwijl Chatgpt4o $ 100 miljoen kostte om te trainen.