DeepSeek-V3 是一个采用 Mixture-of-Experts (MoE) 架构 的最先进 大型语言模型 (LLM)。拥有 6710亿总参数,但每个token仅激活 370亿参数,在保持高效推理的同时,提供卓越的性能。DeepSeek-V3 代表了开源语言模型的重大进步,其能力可与领先的闭源模型相媲美。
来源:README.md
关键特征和能力
DeepSeek-V3 通过多项创新特征脱颖而出:
- 高效架构:使用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现快速、成本效益高的推理。
- 高级负载均衡:实施无辅助损失策略,以优化专家利用率。
- 多Token预测:采用新颖的训练目标,提升模型性能并支持推测解码。
- 广泛预训练:在14.8万亿个多样、高质量的token上进行训练。
- 长上下文理解:支持128K token的上下文长度,能够进行复杂文档分析。
- FP8原生训练:率先实现FP8混合精度训练,适用于大规模模型。
模型变体
模型 | 总参数 | 激活参数 | 上下文长度 | 用途 |
---|---|---|---|---|
DeepSeek-V3-Base | 671B | 37B | 128K | 用于研究和微调的基础模型 |
DeepSeek-V3 | 671B | 37B | 128K | 优化聊天的模型,支持指令跟随 |
来源:README.md
技术架构
DeepSeek-V3 具有复杂的神经网络架构:
- 61层变压器,隐藏维度为7168
- 128个注意力头,不同组件具有专用维度
- 256个路由专家,每个token激活8个
- 多Token预测模块,提升性能和推理速度
来源:config_671B.json, README_WEIGHTS.md
性能亮点
DeepSeek-V3 在众多基准测试中展示了卓越的能力:
- 强大的推理性能:Big-Bench Hard (BBH) 达87.5%,MMLU 达87.1%
- 先进的数学技能:GSM8K 达89.3%,MATH 达61.6%
- 卓越的代码生成:HumanEval 达65.2%,MBPP 达75.4%
- 多语言熟练度:C-Eval 达90.1%,CMMLU 达88.8%
- 开放式生成质量:AlpacaEval 2.0 胜率70.0%
与其他模型(包括Qwen2.5 72B、LLaMA3.1 405B)以及闭源模型(如Claude-3.5-Sonnet和GPT-4o)相比,DeepSeek-V3 一直表现出竞争性或更优的性能。
入门指南
开始使用 DeepSeek-V3 非常简单。您可以:
-
使用预构建解决方案:
- 在 官方网站 与 DeepSeek-V3 聊天
- 通过 DeepSeek 平台 的API访问
-
本地运行,支持多种框架:
- 使用 DeepSeek-Infer 演示(在此仓库中提供)
- 通过优化框架如 SGLang、LMDeploy、TensorRT-LLM、vLLM 或 LightLLM
- 在不同硬件上:NVIDIA GPU、AMD GPU 或华为 Ascend NPU
权重格式
DeepSeek-V3 原生支持 FP8 权重格式,采用128x128块缩放。模型权重包括:
- 主模型权重:6710亿总参数,36.7亿激活参数
- 多Token预测模块:额外140亿参数,用于推测解码
提供转换脚本,将FP8权重转换为BF16,以实现更广泛的兼容性:
PYTHON
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
来源:README.md, README_WEIGHTS.md
许可信息
DeepSeek-V3 采用双重许可结构发布:
模型在模型许可证规定的条款下支持商业使用。
来源:README.md