CGXBeta

概览

- 分钟等级: 入门

DeepSeek-V3 是一个采用 Mixture-of-Experts (MoE) 架构 的最先进 大型语言模型 (LLM)。拥有 6710亿总参数,但每个token仅激活 370亿参数,在保持高效推理的同时,提供卓越的性能。DeepSeek-V3 代表了开源语言模型的重大进步,其能力可与领先的闭源模型相媲美。

来源:README.md

关键特征和能力

DeepSeek-V3 通过多项创新特征脱颖而出:

  • 高效架构:使用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现快速、成本效益高的推理。
  • 高级负载均衡:实施无辅助损失策略,以优化专家利用率。
  • 多Token预测:采用新颖的训练目标,提升模型性能并支持推测解码。
  • 广泛预训练:在14.8万亿个多样、高质量的token上进行训练。
  • 长上下文理解:支持128K token的上下文长度,能够进行复杂文档分析。
  • FP8原生训练:率先实现FP8混合精度训练,适用于大规模模型。

来源:README.md, README.md

模型变体

模型总参数激活参数上下文长度用途
DeepSeek-V3-Base671B37B128K用于研究和微调的基础模型
DeepSeek-V3671B37B128K优化聊天的模型,支持指令跟随

来源:README.md

技术架构

DeepSeek-V3 具有复杂的神经网络架构:

  • 61层变压器,隐藏维度为7168
  • 128个注意力头,不同组件具有专用维度
  • 256个路由专家,每个token激活8个
  • 多Token预测模块,提升性能和推理速度

来源:config_671B.json, README_WEIGHTS.md

性能亮点

DeepSeek-V3 在众多基准测试中展示了卓越的能力:

  • 强大的推理性能:Big-Bench Hard (BBH) 达87.5%,MMLU 达87.1%
  • 先进的数学技能:GSM8K 达89.3%,MATH 达61.6%
  • 卓越的代码生成:HumanEval 达65.2%,MBPP 达75.4%
  • 多语言熟练度:C-Eval 达90.1%,CMMLU 达88.8%
  • 开放式生成质量:AlpacaEval 2.0 胜率70.0%

与其他模型(包括Qwen2.5 72B、LLaMA3.1 405B)以及闭源模型(如Claude-3.5-Sonnet和GPT-4o)相比,DeepSeek-V3 一直表现出竞争性或更优的性能。

来源:README.md, README.md

入门指南

开始使用 DeepSeek-V3 非常简单。您可以:

  1. 使用预构建解决方案

  2. 本地运行,支持多种框架:

    • 使用 DeepSeek-Infer 演示(在此仓库中提供)
    • 通过优化框架如 SGLang、LMDeploy、TensorRT-LLM、vLLM 或 LightLLM
    • 在不同硬件上:NVIDIA GPU、AMD GPU 或华为 Ascend NPU

来源:README.md, README.md

权重格式

DeepSeek-V3 原生支持 FP8 权重格式,采用128x128块缩放。模型权重包括:

  • 主模型权重:6710亿总参数,36.7亿激活参数
  • 多Token预测模块:额外140亿参数,用于推测解码

提供转换脚本,将FP8权重转换为BF16,以实现更广泛的兼容性:

PYTHON
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

来源:README.md, README_WEIGHTS.md

许可信息

DeepSeek-V3 采用双重许可结构发布:

模型在模型许可证规定的条款下支持商业使用。

来源:README.md