DeepSeek-V3 是一个采用 Mixture-of-Experts (MoE) 架构 的最先进 大型语言模型 (LLM)。拥有 6710亿总参数，但每个token仅激活 370亿参数，在保持高效推理的同时，提供卓越的性能。DeepSeek-V3 代表了开源语言模型的重大进步，其能力可与领先的闭源模型相媲美。

来源：README.md

关键特征和能力

DeepSeek-V3 通过多项创新特征脱颖而出：

高效架构：使用多头潜在注意力（MLA）和 DeepSeekMoE 架构，实现快速、成本效益高的推理。
高级负载均衡：实施无辅助损失策略，以优化专家利用率。
多Token预测：采用新颖的训练目标，提升模型性能并支持推测解码。
广泛预训练：在14.8万亿个多样、高质量的token上进行训练。
长上下文理解：支持128K token的上下文长度，能够进行复杂文档分析。
FP8原生训练：率先实现FP8混合精度训练，适用于大规模模型。

来源：README.md, README.md

模型变体

模型	总参数	激活参数	上下文长度	用途
DeepSeek-V3-Base	671B	37B	128K	用于研究和微调的基础模型
DeepSeek-V3	671B	37B	128K	优化聊天的模型，支持指令跟随

来源：README.md

技术架构

DeepSeek-V3 具有复杂的神经网络架构：

61层变压器，隐藏维度为7168
128个注意力头，不同组件具有专用维度
256个路由专家，每个token激活8个
多Token预测模块，提升性能和推理速度

来源：config_671B.json, README_WEIGHTS.md

性能亮点

DeepSeek-V3 在众多基准测试中展示了卓越的能力：

强大的推理性能：Big-Bench Hard (BBH) 达87.5%，MMLU 达87.1%
先进的数学技能：GSM8K 达89.3%，MATH 达61.6%
卓越的代码生成：HumanEval 达65.2%，MBPP 达75.4%
多语言熟练度：C-Eval 达90.1%，CMMLU 达88.8%
开放式生成质量：AlpacaEval 2.0 胜率70.0%

与其他模型（包括Qwen2.5 72B、LLaMA3.1 405B）以及闭源模型（如Claude-3.5-Sonnet和GPT-4o）相比，DeepSeek-V3 一直表现出竞争性或更优的性能。

来源：README.md, README.md

入门指南

开始使用 DeepSeek-V3 非常简单。您可以：

使用预构建解决方案：
- 在官方网站与 DeepSeek-V3 聊天
- 通过 DeepSeek 平台的API访问
本地运行，支持多种框架：
- 使用 DeepSeek-Infer 演示（在此仓库中提供）
- 通过优化框架如 SGLang、LMDeploy、TensorRT-LLM、vLLM 或 LightLLM
- 在不同硬件上：NVIDIA GPU、AMD GPU 或华为 Ascend NPU

来源：README.md, README.md

权重格式

DeepSeek-V3 原生支持 FP8 权重格式，采用128x128块缩放。模型权重包括：

主模型权重：6710亿总参数，36.7亿激活参数
多Token预测模块：额外140亿参数，用于推测解码

提供转换脚本，将FP8权重转换为BF16，以实现更广泛的兼容性：

PYTHON

python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

来源：README.md, README_WEIGHTS.md

许可信息

DeepSeek-V3 采用双重许可结构发布：

代码仓库：MIT 许可证
模型权重：模型许可证

模型在模型许可证规定的条款下支持商业使用。

来源：README.md

概览

关键特征和能力

模型变体

技术架构

性能亮点

入门指南

权重格式

许可信息

inference

configs