DeepSeek-V3 在语言模型架构方面代表了显著的进步,结合了专家混合(MoE)设计与创新的训练方法,以提供最先进的性能,同时保持推理效率。本文档提供了可用模型变体及其能力的全面概述。
可用模型变体
DeepSeek-V3 提供多种配置,以满足不同的计算需求和用例。模型系列包括以下变体:
模型 | 总参数 | 激活参数 | 上下文长度 | 描述 |
---|---|---|---|---|
DeepSeek-V3-Base | 671B | 37B | 128K | 没有额外微调的基础模型 |
DeepSeek-V3 | 671B | 37B | 128K | 经过SFT和RLHF优化的聊天模型 |
虽然671B变体是主要的公开版本,但存储库包括其他模型大小的配置文件:
- DeepSeek-V3 671B:具备完整功能的主力模型
- DeepSeek-V3 236B:参数数量减少的中型变体
- DeepSeek-V3 16B:适用于资源有限环境的小型变体
来源:README.md,config_671B.json,config_236B.json,config_16B.json
模型架构
DeepSeek-V3的架构在其前代高效设计原则的基础上,引入了多项创新:
专家混合(MoE)设计
671B模型特点:
- 总计671B参数,每个token仅激活37B
- 61个变压器层(包括58个MoE层和3个密集层)
- 7,168维尺寸,中间维度为18,432
- 每层256个路由专家,每个token激活8个专家
- 8个专家组,组间负载平衡
MoE架构使模型具有庞大的参数数量,同时在推理期间保持计算需求合理,因为每个token仅激活一小部分参数。
多头潜在注意力(MLA)
DeepSeek-V3实现了多头潜在注意力,这是一种高效的注意力机制:
- 为不同的注意力组件使用不同的头维度
- 使用128个注意力头
- 实现了混合位置编码方法:
- 128维用于非位置编码头(qk_nope_head_dim)
- 64维用于旋转位置编码头(qk_rope_head_dim)
多Token预测(MTP)
DeepSeek-V3的一个关键创新是多Token预测模块:
- 使模型能够一次预测多个token
- 可用于推测解码以加速推理
- 在主模型的671B参数之上增加了14B额外参数(11.5B唯一)
- 包括一个通过
num_nextn_predict_layers
参数配置的MTP模块
来源:README_WEIGHTS.md,README.md
FP8精度支持
DeepSeek-V3提供原生FP8精度支持:
- 使用e4m3格式(4个指数位,3个尾数位)
- 实现128x128块缩放权重
- 支持动态激活量化
- 使推理期间的计算和内存使用更高效
来源:README_WEIGHTS.md,config_671B.json
模型能力
基准性能
DeepSeek-V3在广泛的基准测试中展示了令人印象深刻的性能,尤其在以下领域表现突出:
通用知识和推理
- 87.1% 在MMLU(5-shot)
- 87.5% 在Big-Bench Hard
- 89.0% 在DROP信息检索
- 86.1% 在IF-Eval指令跟随
数学
- 89.3% 在GSM8K(8-shot)
- 61.6% 在MATH(4-shot)
- 90.7% 在CMath(3-shot)
- 39.2% 在AIME 2024竞赛问题(对大型语言模型而言显著)
代码生成
- 65.2% 在HumanEval(Pass@1)
- 75.4% 在MBPP(Pass@1)
- 40.5% 在LiveCodeBench(Pass@1-COT)
- 51.6% 百分位在Codeforces竞技编程
多语言能力
- 90.1% 在C-Eval(中文评估套件)
- 88.8% 在CMMLU(中文MMLU等效)
- 79.4% 在MMMLU-non-English(多语言知识)
来源:README.md
上下文窗口
DeepSeek-V3支持令人印象深刻的128K上下文窗口,在各种上下文长度的Needle In A Haystack(NIAH)测试中表现一致良好。这一广泛的上下文窗口使得:
- 处理和理解长文档
- 在扩展对话中保持连贯性
- 分析大型代码库
- 连接输入中相隔较远的信息
来源:README.md
任务特定能力
基于基准测试结果,DeepSeek-V3在以下方面表现出特别的优势:
- 数学推理:在数学任务上取得了开源模型中的最先进性能,尤其在竞赛数学问题上表现强劲
- 代码生成:在多种语言的编码任务上表现出色,在现实编程挑战中表现强劲
- 知识密集型任务:在跨领域的知识基准测试上表现强劲,利用其在大约14.8万亿token上的广泛预训练
- 中文语言理解:在中文语言任务上展示了卓越能力,使其成为最强大的多语言模型之一
- 长上下文处理:在LongBench v2和NIAH测试中的强劲表现证实了其有效利用完整128K上下文窗口的能力
来源:README.md
模型局限性
尽管DeepSeek-V3在许多领域展示了令人印象深刻的性能,用户应了解潜在的局限性:
- 计算需求:完整模型需要大量的计算资源进行推理
- FP8集成:FP8精度支持虽然高效,但可能需要特定的硬件和软件支持
- MTP模块支持:如README中所述,多Token预测支持仍在社区中积极开发中
来源:README.md
结论
DeepSeek-V3在语言模型设计方面代表了显著的进步,结合了创新的MoE架构和诸如多Token预测等技术,以实现最先进的性能。凭借其令人印象深刻的128K上下文窗口以及在数学、代码生成和多语言理解方面的特别优势,它提供了与领先闭源模型相当的能力,同时保持了开源方法。
该模型的不同变体为不同的计算约束提供了选项,旗舰671B模型交付了这一尖端架构的全部能力。