
本地运行 Qwen 3.5:完整部署指南
在自己的硬件上运行大模型,隐私、延迟和成本全由你掌控。本指南涵盖硬件需求、主要部署方案、最简上手路径和性能优化建议。
想先试试效果?可以免费在浏览器中体验 Qwen 3.5。
各模型硬件需求
Qwen3.5-4B
- 内存/显存:量化约 3GB,全精度约 8GB
- 适用:大多数带独显或 16GB+ 内存的机器
Qwen3.5-7B
- 内存/显存:量化约 5GB(Q4),全精度约 14GB
- 适用:RTX 3060 12GB+ 或 16GB+ 内存的 CPU 推理
Qwen3.5-14B
- 内存/显存:量化约 9GB,全精度约 28GB
- 适用:RTX 3090、4080+ 或 32GB+ 内存
Qwen3.5-27B 及更大
- 内存/显存:量化约 16GB+,全精度约 54GB+
- 适用:高端工作站或多卡设置
方案一:Ollama(最简单)
# 安装
curl -fsSL https://ollama.com/install.sh | sh
# 下载并运行
ollama run qwen3.5:7b5 分钟内即可开始对话。也可通过 API 调用:
curl http://localhost:11434/api/chat -d '{
"model": "qwen3.5:7b",
"messages": [{"role": "user", "content": "你好"}]
}'方案二:llama.cpp(最灵活)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j GGML_CUDA=1 # NVIDIA GPU
# 或 make -j GGML_METAL=1 # Apple Silicon从 Hugging Face 下载 GGUF 文件,推荐 Q4_K_M 量化。
./llama-cli -m qwen3.5-7b-q4_k_m.gguf --interactive --ctx-size 4096方案三:Transformers(Python 开发首选)
pip install transformers torch acceleratefrom transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3.5-7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
messages = [{"role": "user", "content": "用简单的话解释快速排序"}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))方案四:vLLM(最适合部署 API)
pip install vllm
vllm serve Qwen/Qwen3.5-7B-Instruct提供 OpenAI 兼容 API,可直接替换现有应用。
性能优化
- 量化:Q4_K_M 是性能与质量的最佳平衡
- 上下文长度:按需设置,不要浪费内存
- GPU 卸载:模型不完全放入显存时,尽量多放几层到 GPU
- Apple Silicon:M 系列芯片的统一内存架构可以运行较大模型,推荐 llama.cpp + Metal 或 Ollama
如何选择?
- 只想本地聊天:用 Ollama
- 要最大灵活性:用 llama.cpp
- Python 应用开发:用 Transformers
- 部署 API 服务:用 vLLM
不确定选哪个模型?先免费在线试用 Qwen 3.5,测试你的实际需求,再部署到本地。

