CGXBeta

模型变体和能力

- 分钟等级: 入门

DeepSeek-V3 在语言模型架构方面代表了显著的进步,结合了专家混合(MoE)设计与创新的训练方法,以提供最先进的性能,同时保持推理效率。本文档提供了可用模型变体及其能力的全面概述。

可用模型变体

DeepSeek-V3 提供多种配置,以满足不同的计算需求和用例。模型系列包括以下变体:

模型总参数激活参数上下文长度描述
DeepSeek-V3-Base671B37B128K没有额外微调的基础模型
DeepSeek-V3671B37B128K经过SFT和RLHF优化的聊天模型

虽然671B变体是主要的公开版本,但存储库包括其他模型大小的配置文件:

  • DeepSeek-V3 671B:具备完整功能的主力模型
  • DeepSeek-V3 236B:参数数量减少的中型变体
  • DeepSeek-V3 16B:适用于资源有限环境的小型变体

来源:README.mdconfig_671B.jsonconfig_236B.jsonconfig_16B.json

模型架构

DeepSeek-V3的架构在其前代高效设计原则的基础上,引入了多项创新:

专家混合(MoE)设计

671B模型特点:

  • 总计671B参数,每个token仅激活37B
  • 61个变压器层(包括58个MoE层和3个密集层)
  • 7,168维尺寸,中间维度为18,432
  • 每层256个路由专家,每个token激活8个专家
  • 8个专家组,组间负载平衡

MoE架构使模型具有庞大的参数数量,同时在推理期间保持计算需求合理,因为每个token仅激活一小部分参数。

来源:config_671B.jsonREADME.md

多头潜在注意力(MLA)

DeepSeek-V3实现了多头潜在注意力,这是一种高效的注意力机制:

  • 为不同的注意力组件使用不同的头维度
  • 使用128个注意力头
  • 实现了混合位置编码方法:
    • 128维用于非位置编码头(qk_nope_head_dim)
    • 64维用于旋转位置编码头(qk_rope_head_dim)

来源:config_671B.json

多Token预测(MTP)

DeepSeek-V3的一个关键创新是多Token预测模块:

  • 使模型能够一次预测多个token
  • 可用于推测解码以加速推理
  • 在主模型的671B参数之上增加了14B额外参数(11.5B唯一)
  • 包括一个通过num_nextn_predict_layers参数配置的MTP模块

来源:README_WEIGHTS.mdREADME.md

FP8精度支持

DeepSeek-V3提供原生FP8精度支持:

  • 使用e4m3格式(4个指数位,3个尾数位)
  • 实现128x128块缩放权重
  • 支持动态激活量化
  • 使推理期间的计算和内存使用更高效

来源:README_WEIGHTS.mdconfig_671B.json

模型能力

基准性能

DeepSeek-V3在广泛的基准测试中展示了令人印象深刻的性能,尤其在以下领域表现突出:

通用知识和推理

  • 87.1% 在MMLU(5-shot)
  • 87.5% 在Big-Bench Hard
  • 89.0% 在DROP信息检索
  • 86.1% 在IF-Eval指令跟随

数学

  • 89.3% 在GSM8K(8-shot)
  • 61.6% 在MATH(4-shot)
  • 90.7% 在CMath(3-shot)
  • 39.2% 在AIME 2024竞赛问题(对大型语言模型而言显著)

代码生成

  • 65.2% 在HumanEval(Pass@1)
  • 75.4% 在MBPP(Pass@1)
  • 40.5% 在LiveCodeBench(Pass@1-COT)
  • 51.6% 百分位在Codeforces竞技编程

多语言能力

  • 90.1% 在C-Eval(中文评估套件)
  • 88.8% 在CMMLU(中文MMLU等效)
  • 79.4% 在MMMLU-non-English(多语言知识)

来源:README.md

上下文窗口

DeepSeek-V3支持令人印象深刻的128K上下文窗口,在各种上下文长度的Needle In A Haystack(NIAH)测试中表现一致良好。这一广泛的上下文窗口使得:

  • 处理和理解长文档
  • 在扩展对话中保持连贯性
  • 分析大型代码库
  • 连接输入中相隔较远的信息

来源:README.md

任务特定能力

基于基准测试结果,DeepSeek-V3在以下方面表现出特别的优势:

  1. 数学推理:在数学任务上取得了开源模型中的最先进性能,尤其在竞赛数学问题上表现强劲
  2. 代码生成:在多种语言的编码任务上表现出色,在现实编程挑战中表现强劲
  3. 知识密集型任务:在跨领域的知识基准测试上表现强劲,利用其在大约14.8万亿token上的广泛预训练
  4. 中文语言理解:在中文语言任务上展示了卓越能力,使其成为最强大的多语言模型之一
  5. 长上下文处理:在LongBench v2和NIAH测试中的强劲表现证实了其有效利用完整128K上下文窗口的能力

来源:README.md

模型局限性

尽管DeepSeek-V3在许多领域展示了令人印象深刻的性能,用户应了解潜在的局限性:

  1. 计算需求:完整模型需要大量的计算资源进行推理
  2. FP8集成:FP8精度支持虽然高效,但可能需要特定的硬件和软件支持
  3. MTP模块支持:如README中所述,多Token预测支持仍在社区中积极开发中

来源:README.md

结论

DeepSeek-V3在语言模型设计方面代表了显著的进步,结合了创新的MoE架构和诸如多Token预测等技术,以实现最先进的性能。凭借其令人印象深刻的128K上下文窗口以及在数学、代码生成和多语言理解方面的特别优势,它提供了与领先闭源模型相当的能力,同时保持了开源方法。

该模型的不同变体为不同的计算约束提供了选项,旗舰671B模型交付了这一尖端架构的全部能力。