DeepSeek-V3 代表了大语言模型技术的显著进步,结合了高效的架构设计与创新的训练技术。本文档概述了该模型的详细技术规格,重点关注其架构、参数和操作特性。
模型架构概览
DeepSeek-V3 建立在混合专家(MoE)架构之上,显著提升了参数效率。该模型使用 671B 总参数,但处理每个标记时仅激活 37B 参数,从而在计算效率和任务性能之间取得平衡。
模型架构包含几项关键创新:
- 多头潜在注意力(MLA):一种注意力机制,使用结构化低秩分解以提高计算和内存使用效率。
- DeepSeekMoE:一种专门的 MoE 实现,具有无辅助损失的负载平衡。
- 多标记预测(MTP):一种训练目标,提升了性能和推理速度。
核心模型参数
参数 | 值 | 描述 |
---|---|---|
总参数 | 671B | 模型中的总参数数量 |
激活参数 | 37B | 每次前向传递使用的参数 |
模型维度 | 7,168 | 隐藏状态维度 |
词汇表大小 | 129,280 | 词汇表中的标记数量 |
上下文窗口 | 128K | 最大序列长度 |
层数 | 61 | 总变压器层 |
密集层 | 3 | 无 MoE 架构的层 |
注意力头 | 128 | 注意力头数量 |
中间 FFN 维度 | 18,432 | 前馈网络中的隐藏维度 |
MoE 中间维度 | 2,048 | MoE 专家中的隐藏维度 |
精度 | FP8(原生) | 模型权重精度格式 |
MoE 架构
DeepSeek-V3 使用了复杂的 MoE 架构,具体规格如下:
组件 | 值 | 描述 |
---|---|---|
路由专家 | 256 | 专家网络总数 |
激活专家 | 8 | 每个标记使用的专家 |
专家组 | 8 | 路由的组数 |
限制组 | 4 | 标记可以路由到的最大组数 |
共享专家 | 1 | 应用于所有输入的专家 |
路由函数 | Sigmoid | 专家路由分数的函数 |
路由缩放 | 2.5 | 路由权重的缩放因子 |
每个专家由一个带有 SiLU 激活函数的前馈网络和跳过连接架构组成。路由机制使用一个学习门来动态选择每个输入标记最合适的专家。
多头潜在注意力(MLA)
DeepSeek-V3 实现了一种创新的注意力机制,称为多头潜在注意力(MLA),包括:
组件 | 值 | 描述 |
---|---|---|
Q LoRA 秩 | 1,536 | 查询投影的低秩维度 |
KV LoRA 秩 | 512 | 键/值投影的低秩维度 |
QK NoRoPE 头维度 | 128 | 无旋转嵌入的头维度 |
QK RoPE 头维度 | 64 | 带旋转嵌入的头维度 |
V 头维度 | 128 | 值头维度 |
该注意力机制结合了旋转位置嵌入(RoPE)和非位置组件,有效处理位置敏感和位置不敏感的信息。实现包括优化的缓存策略以提高推理效率。
训练基础设施
DeepSeek-V3 使用了一种创新的方法进行训练,最大化了效率:
- 预训练数据:14.8 万亿多样化标记
- 训练计算:总计 2.788M H800 GPU 小时
- 预训练 2.664M GPU 小时
- 预训练后阶段 0.1M GPU 小时
- 混合精度:FP8 训练框架以提高效率
- 通信优化:近乎完全的计算-通信重叠
- 训练稳定性:训练过程中无不可恢复的损失峰值或回滚
来源:README.md
推理支持
DeepSeek-V3 可以使用各种框架和硬件配置进行部署:
框架 | 精度支持 | 特性 |
---|---|---|
DeepSeek-Infer | FP8, BF16 | 轻量级演示 |
SGLang | FP8, BF16 | MLA 优化,支持 NVIDIA & AMD GPU |
LMDeploy | FP8, BF16 | 高效部署 |
TensorRT-LLM | BF16, INT4/8 | 量化支持(FP8 即将推出) |
vLLM | FP8, BF16 | 张量和流水线并行 |
LightLLM | FP8, BF16 | 多机张量并行 |
华为昇腾 | INT8, BF16 | NPU 支持 |
来源:README.md
模型变体
仓库包括不同模型变体的配置文件:
- DeepSeek-V3 (671B):主模型,具有 671B 总参数和 37B 激活参数
- DeepSeek-V3-Base:基础模型版本,大小与主模型相同
- DeepSeek-V2 (236B):上一代模型,具有 236B 总参数和 21B 激活参数
- DeepSeek-V2.5:V2 和 V3 之间的中间迭代
所有模型变体均保持 128K 上下文窗口长度能力,较大模型在各项基准测试中表现出更好的性能。
来源:README.md
性能指标
DeepSeek-V3 在各项基准测试中表现出色:
类别 | 关键基准 | 性能 |
---|---|---|
语言理解 | MMLU | 88.5%(聊天模型) |
MMLU-Redux | 89.1%(聊天模型) | |
数学 | MATH | 61.6%(基础),90.2%(聊天) |
GSM8K | 89.3%(基础) | |
代码 | HumanEval | 65.2%(基础),82.6%(聊天) |
LiveCodeBench | 40.5%(聊天) | |
开放式生成 | AlpacaEval 2.0 | 70.0% 长度控制胜率 |
DeepSeek-V3 是大多数基准测试中最强的开源模型,接近领先闭源模型的性能。
来源:README.md
许可信息
DeepSeek-V3 提供双重许可:
- 代码仓库:根据 MIT 许可证授权
- 模型权重:受 DeepSeek 模型许可证约束,支持商业使用