DeepSeek-R1-Distill-Qwen-7B的部署

硬件要求
最低配置（可运行但可能较慢）

CPU: 16 核以上
内存: 32GB RAM
显卡: 至少 24GB 显存（如 RTX 3090、4090 或 A5000）
存储: 至少 50GB 可用空间（模型权重文件较大）
推荐配置

CPU: AMD EPYC / Intel Xeon 32 核以上
内存: 64GB+
显卡: A100 (40GB)、H100、RTX 4090（24GB）或 MI250X
存储: SSD 1TB+
软件要求
操作系统：Ubuntu 20.04 / 22.04 或 Windows 11
Python 版本：Python 3.8+
CUDA 版本：11.8 或 12.x（如果使用 GPU）
PyTorch 版本：2.0+
Transformers（Hugging Face）: 4.35+
Git LFS（加速 Git 下载）

安装 Git LFS

sudo apt install git-lfs
git lfs install

配置国内加速

git clone https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
cd DeepSeek-R1-Distill-Qwen-7B
git lfs pull

安装 PyTorch 和 Transformers(AutoDL 服务器可选)

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

安装 Transformers 和 FastAPI

pip install transformers accelerate fastapi uvicorn

测试模型

创建 load_model.py

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B"

# 使用本地缓存，避免重复下载
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", cache_dir="./deepseek_model")
tokenizer = AutoTokenizer.from_pretrained(model_name, cache_dir="./deepseek_model")

# 测试推理
input_text = "你好，请介绍一下 DeepSeek-R1 的特点。"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

运行

python load_model.py