DeepSeek-R1-Distill-Qwen-7B的部署
0 条评论硬件要求
最低配置(可运行但可能较慢)
CPU: 16 核以上
内存: 32GB RAM
显卡: 至少 24GB 显存(如 RTX 3090、4090 或 A5000)
存储: 至少 50GB 可用空间(模型权重文件较大)
推荐配置
CPU: AMD EPYC / Intel Xeon 32 核以上
内存: 64GB+
显卡: A100 (40GB)、H100、RTX 4090(24GB)或 MI250X
存储: SSD 1TB+
软件要求
操作系统:Ubuntu 20.04 / 22.04 或 Windows 11
Python 版本:Python 3.8+
CUDA 版本:11.8 或 12.x(如果使用 GPU)
PyTorch 版本:2.0+
Transformers(Hugging Face): 4.35+
Git LFS(加速 Git 下载)
安装 Git LFS
sudo apt install git-lfs
git lfs install
配置国内加速
git clone https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
cd DeepSeek-R1-Distill-Qwen-7B
git lfs pull
安装 PyTorch 和 Transformers(AutoDL 服务器可选)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
安装 Transformers 和 FastAPI
pip install transformers accelerate fastapi uvicorn
测试模型
创建 load_model.py
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B"
# 使用本地缓存,避免重复下载
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", cache_dir="./deepseek_model")
tokenizer = AutoTokenizer.from_pretrained(model_name, cache_dir="./deepseek_model")
# 测试推理
input_text = "你好,请介绍一下 DeepSeek-R1 的特点。"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
运行
python load_model.py