CGXBeta

热议内容

- 分钟等级: 入门

DeepSeek-V3 正在人工智能社区引起轰动,成为当今技术最令人印象深刻且最具成本效益的开源大型语言模型之一。该模型将前沿性能带入开源社区,因其几个引人注目的原因而备受关注。

硬件感知设计扩大了可访问性

最近围绕 DeepSeek-V3 的热议集中在其扩展的硬件支持上。就在几天前(2025年6月16日),团队合并了一个拉取请求,增加了对华为 Ascend NPU 硬件的支持。鉴于中国与西方国家之间持续的芯片限制,这一更新尤为重要,因为它展示了 DeepSeek 致力于使其模型在多样化的硬件平台上可访问,而不仅仅是 NVIDIA GPU。

硬件感知设计理念贯穿于模型的整个架构中。正如 Unite.AI 所详述的,DeepSeek-V3 的构建将硬件优化作为首要设计原则,而非事后考虑。这种方法使他们能够仅使用 2,048 个 NVIDIA H800 GPU 就达到最先进性能——这仅仅是竞争对手通常所需的一小部分。

模型训练的经济突破

DeepSeek-V3 最具颠覆性的方面可能是其训练经济学。据多个行业消息来源估计,该模型的训练成本为560万美元——与 GPT-4 和 Llama 3.1 等模型所需的5000万至1亿美元相比,这是一个惊人的成就。这种10倍的成本优势在投资界引发了冲击波,导致 TechTarget 所称的股市大幅抛售,因为投资者重新评估了人工智能的估值。

成本突破源于三项关键技术创新:

  1. 专家混合(MoE)架构:拥有6710亿个总参数,但每个令牌仅激活37亿个,DeepSeek-V3 以计算成本的一小部分实现了前沿模型能力。该架构包含256个专家网络,但每个令牌仅激活8个。

  2. 多头潜在注意力(MLA):这一创新大幅降低了内存需求,每个令牌仅需70KB,而像 LLaMA 3.1 这样的竞争模型则需要516KB。

  3. FP8 混合精度训练:通过优化8位浮点精度,DeepSeek-V3 将内存消耗减半,同时保持训练质量。

V3-0324:最新进化

2025年3月发布的 DeepSeek-V3-0324 变体 进一步巩固了该模型在市场上的地位。此次更新在推理和编码能力方面取得了显著改进,基准分数全面提高:MMLU-Pro(从75.9提升至81.2),GPQA(从59.1提升至68.4),AIME(从39.6提升至59.4),LiveCodeBench(从39.2提升至49.2)。

最近的提交记录也显示了对函数调用能力的持续优化,以及与 LightLLM 等额外推理引擎的集成,扩展了该模型对开发人员构建生产应用的实用性。

挑战人工智能现状

DeepSeek-V3 对现有观念提出了挑战,即尖端人工智能开发需要只有科技巨头才具备的巨大资源。凭借其允许商业使用的 MIT 许可证,DeepSeek-V3 使前沿人工智能能力得以民主化。

这种颠覆甚至促使一些观察者将其描述为人工智能的“斯普特尼克时刻”,暗示 DeepSeek 和其他中国人工智能公司正在以挑战西方技术主导地位的方式推进该领域。该模型的架构表明,深思熟虑的设计可以克服可能限制人工智能发展的资源限制。

展望未来

随着 DeepSeek-V3 继续发展,支持更多硬件平台和推理引擎,它代表了人工智能发展的一个分水岭时刻——效率和深思熟虑的设计可能比纯粹的算力和财务资源更为重要。DeepSeek 采取的方法预示着一个未来,人工智能的进步变得更加分布式和可访问,可能加速整个行业的创新。

最近对华为 Ascend NPU 的硬件扩展只是使这一强大模型可供更广泛受众使用的最新一步,表明 DeepSeek 仍然致力于其可访问性和效率的哲学,而不牺牲性能。