CGXBeta

技术规格

- 分钟等级: 高级

DeepSeek-V3 代表了大语言模型技术的显著进步,结合了高效的架构设计与创新的训练技术。本文档概述了该模型的详细技术规格,重点关注其架构、参数和操作特性。

模型架构概览

DeepSeek-V3 建立在混合专家(MoE)架构之上,显著提升了参数效率。该模型使用 671B 总参数,但处理每个标记时仅激活 37B 参数,从而在计算效率和任务性能之间取得平衡。

模型架构包含几项关键创新:

  1. 多头潜在注意力(MLA):一种注意力机制,使用结构化低秩分解以提高计算和内存使用效率。
  2. DeepSeekMoE:一种专门的 MoE 实现,具有无辅助损失的负载平衡。
  3. 多标记预测(MTP):一种训练目标,提升了性能和推理速度。

来源:model.pyREADME.md

核心模型参数

参数描述
总参数671B模型中的总参数数量
激活参数37B每次前向传递使用的参数
模型维度7,168隐藏状态维度
词汇表大小129,280词汇表中的标记数量
上下文窗口128K最大序列长度
层数61总变压器层
密集层3无 MoE 架构的层
注意力头128注意力头数量
中间 FFN 维度18,432前馈网络中的隐藏维度
MoE 中间维度2,048MoE 专家中的隐藏维度
精度FP8(原生)模型权重精度格式

来源:config_671B.jsonREADME.md

MoE 架构

DeepSeek-V3 使用了复杂的 MoE 架构,具体规格如下:

组件描述
路由专家256专家网络总数
激活专家8每个标记使用的专家
专家组8路由的组数
限制组4标记可以路由到的最大组数
共享专家1应用于所有输入的专家
路由函数Sigmoid专家路由分数的函数
路由缩放2.5路由权重的缩放因子

每个专家由一个带有 SiLU 激活函数的前馈网络和跳过连接架构组成。路由机制使用一个学习门来动态选择每个输入标记最合适的专家。

来源:config_671B.jsonmodel.py

多头潜在注意力(MLA)

DeepSeek-V3 实现了一种创新的注意力机制,称为多头潜在注意力(MLA),包括:

组件描述
Q LoRA 秩1,536查询投影的低秩维度
KV LoRA 秩512键/值投影的低秩维度
QK NoRoPE 头维度128无旋转嵌入的头维度
QK RoPE 头维度64带旋转嵌入的头维度
V 头维度128值头维度

该注意力机制结合了旋转位置嵌入(RoPE)和非位置组件,有效处理位置敏感和位置不敏感的信息。实现包括优化的缓存策略以提高推理效率。

来源:config_671B.jsonmodel.py

训练基础设施

DeepSeek-V3 使用了一种创新的方法进行训练,最大化了效率:

  • 预训练数据:14.8 万亿多样化标记
  • 训练计算:总计 2.788M H800 GPU 小时
    • 预训练 2.664M GPU 小时
    • 预训练后阶段 0.1M GPU 小时
  • 混合精度:FP8 训练框架以提高效率
  • 通信优化:近乎完全的计算-通信重叠
  • 训练稳定性:训练过程中无不可恢复的损失峰值或回滚

来源:README.md

推理支持

DeepSeek-V3 可以使用各种框架和硬件配置进行部署:

框架精度支持特性
DeepSeek-InferFP8, BF16轻量级演示
SGLangFP8, BF16MLA 优化,支持 NVIDIA & AMD GPU
LMDeployFP8, BF16高效部署
TensorRT-LLMBF16, INT4/8量化支持(FP8 即将推出)
vLLMFP8, BF16张量和流水线并行
LightLLMFP8, BF16多机张量并行
华为昇腾INT8, BF16NPU 支持

来源:README.md

模型变体

仓库包括不同模型变体的配置文件:

  1. DeepSeek-V3 (671B):主模型,具有 671B 总参数和 37B 激活参数
  2. DeepSeek-V3-Base:基础模型版本,大小与主模型相同
  3. DeepSeek-V2 (236B):上一代模型,具有 236B 总参数和 21B 激活参数
  4. DeepSeek-V2.5:V2 和 V3 之间的中间迭代

所有模型变体均保持 128K 上下文窗口长度能力,较大模型在各项基准测试中表现出更好的性能。

来源:README.md

性能指标

DeepSeek-V3 在各项基准测试中表现出色:

类别关键基准性能
语言理解MMLU88.5%(聊天模型)
MMLU-Redux89.1%(聊天模型)
数学MATH61.6%(基础),90.2%(聊天)
GSM8K89.3%(基础)
代码HumanEval65.2%(基础),82.6%(聊天)
LiveCodeBench40.5%(聊天)
开放式生成AlpacaEval 2.070.0% 长度控制胜率

DeepSeek-V3 是大多数基准测试中最强的开源模型,接近领先闭源模型的性能。

来源:README.md

许可信息

DeepSeek-V3 提供双重许可:

  • 代码仓库:根据 MIT 许可证授权
  • 模型权重:受 DeepSeek 模型许可证约束,支持商业使用