Ang bagong chatbot mula sa Deepseek ay gumawa ng isang makabuluhang epekto sa merkado ng AI, na ipinakilala ang sarili sa nakakaintriga na pahayag:
Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka.
Ang modelong AI na ito ay hindi lamang naging isang kakila -kilabot na katunggali ngunit nag -ambag din sa isa sa pinakamalaking pagbagsak ng presyo ng stock ng NVIDIA.
Larawan: ensigame.com
Ang nakikilala sa modelo ng Deepseek ay ang makabagong mga pamamaraan ng arkitektura at pagsasanay, na kinabibilangan ng:
Multi-Token Prediction (MTP): Ang pamamaraan na ito ay nagbibigay-daan sa modelo upang mahulaan ang maraming mga salita nang sabay-sabay sa pamamagitan ng pagsusuri ng iba't ibang mga bahagi ng isang pangungusap, makabuluhang pagpapabuti ng parehong kawastuhan at kahusayan.
Paghahalo ng mga eksperto (MOE): Paggamit ng 256 Neural Networks, na may walong na -aktibo para sa bawat gawain sa pagproseso ng token, ang arkitektura na ito ay nagpapabilis sa pagsasanay sa AI at nagpapahusay ng pagganap.
Multi-head latent attention (MLA): Sa pamamagitan ng pagtuon sa pinakamahalagang bahagi ng isang pangungusap at pagkuha ng mga key na detalye nang paulit-ulit, binabawasan ng MLA ang pagkakataon na nawawala ang mahalagang impormasyon, na nagpapagana sa AI upang makuha ang mga mahahalagang nuances.
Ang DeepSeek, isang kilalang pagsisimula ng Tsino, ay nagsasabing nakabuo ng isang mapagkumpitensyang modelo ng AI sa kaunting gastos, na nagsasabi na ginugol lamang nila ang $ 6 milyon sa pagsasanay sa Deepseek V3 gamit lamang ang 2048 na mga processors ng graphics.
Larawan: ensigame.com
Gayunpaman, ang mga analyst mula sa semianalysis ay nagsiwalat na ang Deepseek ay nagpapatakbo ng isang malawak na imprastraktura ng computational, na binubuo ng halos 50,000 NVIDIA HOPPER GPU, kabilang ang 10,000 H800 unit, 10,000 H100s, at karagdagang mga H20 GPU. Ang mga mapagkukunang ito ay kumakalat sa maraming mga sentro ng data at ginamit para sa pagsasanay, pananaliksik, at pagmomolde ng pananalapi.
Ang kabuuang pamumuhunan ng kumpanya sa mga server ay humigit -kumulang $ 1.6 bilyon, na may mga gastos sa pagpapatakbo na tinatayang $ 944 milyon.
Ang Deepseek ay isang subsidiary ng Chinese Hedge Fund High-flyer, na itinatag ang pagsisimula bilang isang hiwalay na dibisyon na nakatuon sa AI noong 2023. Hindi tulad ng karamihan sa mga startup na umaasa sa mga tagapagbigay ng ulap, ang Deepseek ay nagmamay-ari ng mga sentro ng data nito, na nagpapahintulot sa buong kontrol sa pag-optimize ng modelo ng AI at mas mabilis na pagpapatupad ng pagbabago. Ang kumpanya ay nananatiling pondo sa sarili, pagpapahusay ng kakayahang umangkop at bilis ng paggawa ng desisyon.
Larawan: ensigame.com
Bukod dito, ang ilang mga mananaliksik sa Deepseek ay kumita ng higit sa $ 1.3 milyon taun -taon, na umaakit sa nangungunang talento mula sa nangungunang unibersidad ng Tsino (ang kumpanya ay hindi umarkila ng mga dayuhang espesyalista).
Sa kabila ng mga pamumuhunan na ito, ang pag -angkin ng Deepseek ng pagsasanay sa pinakabagong modelo nito sa halagang $ 6 milyon ay tila hindi makatotohanang. Ang figure na ito ay nagkakaroon lamang ng paggamit ng GPU sa panahon ng pre-pagsasanay at hindi kasama ang mga gastos sa pananaliksik, pagpipino ng modelo, pagproseso ng data, at pangkalahatang mga gastos sa imprastraktura.
Mula nang ito ay umpisahan, ang Deepeek ay namuhunan ng higit sa $ 500 milyon sa pag -unlad ng AI. Ang compact na istraktura nito ay nagbibigay -daan para sa aktibo at epektibong pagpapatupad ng mga makabagong AI, hindi katulad ng mas malaki, mas maraming mga kumpanya ng burukrata.
Larawan: ensigame.com
Ang halimbawa ng Deepseek ay nagpapakita na ang isang mahusay na pinondohan na independiyenteng kumpanya ng AI ay maaaring makipagkumpetensya sa mga pinuno ng industriya. Gayunpaman, tandaan ng mga eksperto na ang tagumpay ng kumpanya ay higit sa lahat dahil sa makabuluhang pamumuhunan, mga teknikal na pambihirang tagumpay, at isang malakas na koponan, sa halip na isang "rebolusyonaryong badyet" para sa pag -unlad ng modelo ng AI.
Gayunpaman, ang mga gastos sa Deepseek ay nananatiling mas mababa kaysa sa mga katunggali nito. Halimbawa, ang Deepseek ay gumugol ng $ 5 milyon sa R1, habang ang Chatgpt4o ay nagkakahalaga ng $ 100 milyon upang sanayin.