本地运行 Qwen 3.5：完整部署指南

在自己的硬件上运行大模型，隐私、延迟和成本全由你掌控。本指南涵盖硬件需求、主要部署方案、最简上手路径和性能优化建议。

想先试试效果？可以免费在浏览器中体验 Qwen 3.5。

各模型硬件需求

Qwen3.5-4B

内存/显存：量化约 3GB，全精度约 8GB
适用：大多数带独显或 16GB+ 内存的机器

Qwen3.5-7B

内存/显存：量化约 5GB（Q4），全精度约 14GB
适用：RTX 3060 12GB+ 或 16GB+ 内存的 CPU 推理

Qwen3.5-14B

内存/显存：量化约 9GB，全精度约 28GB
适用：RTX 3090、4080+ 或 32GB+ 内存

Qwen3.5-27B 及更大

内存/显存：量化约 16GB+，全精度约 54GB+
适用：高端工作站或多卡设置

方案一：Ollama（最简单）

# 安装
curl -fsSL https://ollama.com/install.sh | sh

# 下载并运行
ollama run qwen3.5:7b

5 分钟内即可开始对话。也可通过 API 调用：

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3.5:7b",
  "messages": [{"role": "user", "content": "你好"}]
}'

方案二：llama.cpp（最灵活）

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j GGML_CUDA=1  # NVIDIA GPU
# 或 make -j GGML_METAL=1  # Apple Silicon

从 Hugging Face 下载 GGUF 文件，推荐 Q4_K_M 量化。

./llama-cli -m qwen3.5-7b-q4_k_m.gguf --interactive --ctx-size 4096

方案三：Transformers（Python 开发首选）

pip install transformers torch accelerate

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3.5-7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")

messages = [{"role": "user", "content": "用简单的话解释快速排序"}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

方案四：vLLM（最适合部署 API）

pip install vllm
vllm serve Qwen/Qwen3.5-7B-Instruct

提供 OpenAI 兼容 API，可直接替换现有应用。

性能优化

量化：Q4_K_M 是性能与质量的最佳平衡
上下文长度：按需设置，不要浪费内存
GPU 卸载：模型不完全放入显存时，尽量多放几层到 GPU
Apple Silicon：M 系列芯片的统一内存架构可以运行较大模型，推荐 llama.cpp + Metal 或 Ollama

如何选择？

只想本地聊天：用 Ollama
要最大灵活性：用 llama.cpp
Python 应用开发：用 Transformers
部署 API 服务：用 vLLM

不确定选哪个模型？先免费在线试用 Qwen 3.5，测试你的实际需求，再部署到本地。

Qwen 3.5 本地部署：硬件需求与 Ollama / vLLM / llama.cpp 安装

目录