来自DeepSeek的新聊天机器人对AI市场产生了重大影响,并以有趣的声明介绍了自己:
嗨,我是被创建的,所以您可以问任何问题,并得到一个甚至可能让您感到惊讶的答案。
这种AI模型不仅成为了强大的竞争对手,而且还为NVIDIA最大的股价下跌之一做出了贡献。
图片:ensigame.com
DeepSeek模型的区别是其创新的建筑和培训方法,其中包括:
多语预测(MTP):此技术允许该模型通过分析句子的不同部分立即预测多个单词,从而显着提高了准确性和效率。
专家(MOE)的混合物:利用256个神经网络,每个令牌处理任务都激活了8个,该体系结构加快了AI训练并增强了性能。
多头潜在注意力(MLA):通过重点关注句子的最重要部分并反复提取关键细节,MLA减少了缺少关键信息的机会,从而使AI能够捕获重要的细微差别。
DeepSeek是一家著名的中国初创公司,声称自己以最低的成本开发了竞争性的AI模型,并指出他们仅使用2048个图形处理器花了600万美元在培训DeepSeek V3上。
图片:ensigame.com
但是,半分析的分析师表明,DeepSeek运营着庞大的计算基础设施,其中包括约50,000个NVIDIA HOPPER GPU,其中包括10,000 H800单位,10,000 H100和其他H20 GPU。这些资源分布在多个数据中心,并用于AI培训,研究和财务建模。
该公司对服务器的总投资约为16亿美元,运营费用估计为9.44亿美元。
DeepSeek是中国对冲基金高飞行员的子公司,该基金在2023年将这家初创公司建立为独立的AI专注于部门。与大多数依赖云提供商的初创公司不同,DeepSeek拥有其数据中心,可以完全控制AI模型优化和更快的创新实施。该公司保持自筹资金,提高其灵活性和决策速度。
图片:ensigame.com
此外,DeepSeek的一些研究人员每年收入超过130万美元,吸引了中国领先的大学的顶尖人才(该公司不雇用外国专家)。
尽管进行了这些投资,但DeepSeek对仅600万美元培训其最新模式的主张似乎是不现实的。该图仅说明在预培训期间使用GPU,并排除了研究费用,改进,数据处理和整体基础设施成本。
自成立以来,DeepSeek已在AI开发方面投资了超过5亿美元。它的紧凑结构允许积极有效地实施AI创新,这与更大,更官僚的公司不同。
图片:ensigame.com
DeepSeek的示例表明,资金充足的独立AI公司可以与行业领导者竞争。但是,专家指出,该公司的成功在很大程度上是由于重大投资,技术突破和强大的团队,而不是用于AI模型开发的“革命性预算”。
尽管如此,DeepSeek的成本仍低于其竞争对手的成本。例如,DeepSeek在R1上花费了500万美元,而Chatgpt4o的培训花费了1亿美元。