CGXBeta

快速入门

- 分钟等级: 入门

DeepSeek-V3 是一个强大的混合专家 (MoE) 语言模型,总参数量为 671B,每个 token 激活的参数量为 37B。在本快速入门指南中,我们将引导您在几分钟内完成 DeepSeek-V3 的设置和首次推理。

先决条件

在开始之前,请确保您具备以下条件:

  • Python 3.8 或更高版本
  • 兼容 CUDA 的 GPU 且具有足够的 VRAM(具体要求因模型大小而异)
  • Git 用于克隆仓库

安装

首先,克隆仓库并安装所需的依赖项:

BASH
# 克隆仓库
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3
 
# 安装依赖
pip install -r inference/requirements.txt

核心依赖项包括:

  • torch==2.4.1
  • triton==3.0.0
  • transformers==4.46.3
  • safetensors==0.4.5

来源:requirements.txt

下载模型

DeepSeek-V3 提供两种变体:

模型总参数量激活参数量上下文长度来源
DeepSeek-V3-Base671B37B128K🤗 Hugging Face
DeepSeek-V3 (聊天)671B37B128K🤗 Hugging Face

在本快速入门中,我们将使用针对对话交互进行微调的聊天模型。您可以通过 Hugging Face transformers 库直接下载模型,或使用 Hugging Face CLI 进行下载。

来源:README.md

运行推理

DeepSeek-V3 提供了一个简单的脚本,用于在交互模式和批量模式下运行推理。以下是使用方法:

交互模式

交互模式允许您实时与模型进行对话:

BASH
python inference/generate.py \
    --ckpt-path /path/to/downloaded/model \
    --config inference/configs/config_671B.json \
    --interactive \
    --max-new-tokens 200 \
    --temperature 0.2

启动后,您可以输入提示词,模型将进行回应。输入 /exit 退出或 /clear 重置对话历史。

来源:generate.py

批量模式

要处理文件中的多个提示词:

BASH
# 创建一个文本文件,每行一个提示词
echo "用简单术语解释量子计算。" > prompts.txt
echo "写一首关于人工智能的短诗。" >> prompts.txt
 
# 在文件上运行推理
python inference/generate.py \
    --ckpt-path /path/to/downloaded/model \
    --config inference/configs/config_671B.json \
    --input-file prompts.txt \
    --max-new-tokens 200 \
    --temperature 0.2

脚本将处理每个提示词,并输出模型对每个提示词的回应。

来源:generate.py

配置选项

DeepSeek-V3 提供基于模型大小的不同配置文件:

  • config_16B.json:适用于较小的部署
  • config_236B.json:适用于中等大小的部署
  • config_671B.json:适用于完整模型

您可以在命令行中调整的关键参数包括:

  • --max-new-tokens:控制生成响应的最大长度(默认:200)
  • --temperature:控制生成中的随机性(值越低 = 越确定性,默认:0.2)

来源:configs 目录generate.py

使用分布式推理

对于无法在单个 GPU 上运行的更大模型,DeepSeek-V3 支持在多个 GPU 上进行分布式推理:

BASH
# 使用 4 个 GPU 的示例
WORLD_SIZE=4 RANK=0 LOCAL_RANK=0 python -m torch.distributed.launch \
    --nproc_per_node=4 inference/generate.py \
    --ckpt-path /path/to/downloaded/model \
    --config inference/configs/config_671B.json \
    --interactive

脚本自动处理 GPU 之间的通信,以分布式方式运行模型。

来源:generate.py

下一步

现在您已经成功运行 DeepSeek-V3,您可以探索:

  1. 不同模型变体及其能力
  2. 高级配置选项
  3. 模型转换选项
  4. 性能优化技术

这些主题将在后续文档部分中进行介绍。祝您使用 DeepSeek-V3 愉快!