DeepSeek-V3 是一个强大的混合专家 (MoE) 语言模型,总参数量为 671B,每个 token 激活的参数量为 37B。在本快速入门指南中,我们将引导您在几分钟内完成 DeepSeek-V3 的设置和首次推理。
先决条件
在开始之前,请确保您具备以下条件:
- Python 3.8 或更高版本
- 兼容 CUDA 的 GPU 且具有足够的 VRAM(具体要求因模型大小而异)
- Git 用于克隆仓库
安装
首先,克隆仓库并安装所需的依赖项:
BASH
# 克隆仓库
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3
# 安装依赖
pip install -r inference/requirements.txt
核心依赖项包括:
torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
下载模型
DeepSeek-V3 提供两种变体:
模型 | 总参数量 | 激活参数量 | 上下文长度 | 来源 |
---|---|---|---|---|
DeepSeek-V3-Base | 671B | 37B | 128K | 🤗 Hugging Face |
DeepSeek-V3 (聊天) | 671B | 37B | 128K | 🤗 Hugging Face |
在本快速入门中,我们将使用针对对话交互进行微调的聊天模型。您可以通过 Hugging Face transformers 库直接下载模型,或使用 Hugging Face CLI 进行下载。
来源:README.md
运行推理
DeepSeek-V3 提供了一个简单的脚本,用于在交互模式和批量模式下运行推理。以下是使用方法:
交互模式
交互模式允许您实时与模型进行对话:
BASH
python inference/generate.py \
--ckpt-path /path/to/downloaded/model \
--config inference/configs/config_671B.json \
--interactive \
--max-new-tokens 200 \
--temperature 0.2
启动后,您可以输入提示词,模型将进行回应。输入 /exit
退出或 /clear
重置对话历史。
来源:generate.py
批量模式
要处理文件中的多个提示词:
BASH
# 创建一个文本文件,每行一个提示词
echo "用简单术语解释量子计算。" > prompts.txt
echo "写一首关于人工智能的短诗。" >> prompts.txt
# 在文件上运行推理
python inference/generate.py \
--ckpt-path /path/to/downloaded/model \
--config inference/configs/config_671B.json \
--input-file prompts.txt \
--max-new-tokens 200 \
--temperature 0.2
脚本将处理每个提示词,并输出模型对每个提示词的回应。
来源:generate.py
配置选项
DeepSeek-V3 提供基于模型大小的不同配置文件:
config_16B.json
:适用于较小的部署config_236B.json
:适用于中等大小的部署config_671B.json
:适用于完整模型
您可以在命令行中调整的关键参数包括:
--max-new-tokens
:控制生成响应的最大长度(默认:200)--temperature
:控制生成中的随机性(值越低 = 越确定性,默认:0.2)
使用分布式推理
对于无法在单个 GPU 上运行的更大模型,DeepSeek-V3 支持在多个 GPU 上进行分布式推理:
BASH
# 使用 4 个 GPU 的示例
WORLD_SIZE=4 RANK=0 LOCAL_RANK=0 python -m torch.distributed.launch \
--nproc_per_node=4 inference/generate.py \
--ckpt-path /path/to/downloaded/model \
--config inference/configs/config_671B.json \
--interactive
脚本自动处理 GPU 之间的通信,以分布式方式运行模型。
来源:generate.py
下一步
现在您已经成功运行 DeepSeek-V3,您可以探索:
- 不同模型变体及其能力
- 高级配置选项
- 模型转换选项
- 性能优化技术
这些主题将在后续文档部分中进行介绍。祝您使用 DeepSeek-V3 愉快!