博客文章

本地运行 Qwen 3.5:完整部署指南

本地运行 Qwen 3.5 所需的一切:各模型硬件需求、Ollama/vLLM/llama.cpp/Transformers 部署方法及性能优化技巧。

本地运行 Qwen 3.5:完整部署指南

本地运行 Qwen 3.5:完整部署指南

在自己的硬件上运行大模型,隐私、延迟和成本全由你掌控。本指南涵盖硬件需求、主要部署方案、最简上手路径和性能优化建议。

想先试试效果?可以免费在浏览器中体验 Qwen 3.5

各模型硬件需求

Qwen3.5-4B

  • 内存/显存:量化约 3GB,全精度约 8GB
  • 适用:大多数带独显或 16GB+ 内存的机器

Qwen3.5-7B

  • 内存/显存:量化约 5GB(Q4),全精度约 14GB
  • 适用:RTX 3060 12GB+ 或 16GB+ 内存的 CPU 推理

Qwen3.5-14B

  • 内存/显存:量化约 9GB,全精度约 28GB
  • 适用:RTX 3090、4080+ 或 32GB+ 内存

Qwen3.5-27B 及更大

  • 内存/显存:量化约 16GB+,全精度约 54GB+
  • 适用:高端工作站或多卡设置

方案一:Ollama(最简单)

# 安装
curl -fsSL https://ollama.com/install.sh | sh

# 下载并运行
ollama run qwen3.5:7b

5 分钟内即可开始对话。也可通过 API 调用:

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3.5:7b",
  "messages": [{"role": "user", "content": "你好"}]
}'

方案二:llama.cpp(最灵活)

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j GGML_CUDA=1  # NVIDIA GPU
# 或 make -j GGML_METAL=1  # Apple Silicon

从 Hugging Face 下载 GGUF 文件,推荐 Q4_K_M 量化。

./llama-cli -m qwen3.5-7b-q4_k_m.gguf --interactive --ctx-size 4096

方案三:Transformers(Python 开发首选)

pip install transformers torch accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.5-7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")

messages = [{"role": "user", "content": "用简单的话解释快速排序"}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

方案四:vLLM(最适合部署 API)

pip install vllm
vllm serve Qwen/Qwen3.5-7B-Instruct

提供 OpenAI 兼容 API,可直接替换现有应用。

性能优化

  • 量化:Q4_K_M 是性能与质量的最佳平衡
  • 上下文长度:按需设置,不要浪费内存
  • GPU 卸载:模型不完全放入显存时,尽量多放几层到 GPU
  • Apple Silicon:M 系列芯片的统一内存架构可以运行较大模型,推荐 llama.cpp + Metal 或 Ollama

如何选择?

  • 只想本地聊天:用 Ollama
  • 要最大灵活性:用 llama.cpp
  • Python 应用开发:用 Transformers
  • 部署 API 服务:用 vLLM

不确定选哪个模型?先免费在线试用 Qwen 3.5,测试你的实际需求,再部署到本地。

Q-Chat Team

Q-Chat Team

本地运行 Qwen 3.5:完整部署指南 | Qwen 博客