
如何用 vLLM 运行 Qwen 3.5
如果你在搜 vllm qwen3.5,大概率已经有了具体的部署场景:也许是要给多个用户同时提供推理服务,也许是想在自己的 GPU 集群上把吞吐跑到最高。vLLM 是实现这些目标最实用的方式之一。
这篇文章会讲清楚 vLLM 是什么、为什么适合跑 Qwen 3.5,以及从零到服务上线的完整流程。如果你只是想先试试 Qwen 3.5 的效果,不想搭任何环境,可以先去免费试用 Qwen 3.5,等确定需要自部署时再回来。
什么是 vLLM
vLLM 是一个开源的高性能 LLM 推理和服务框架,最早由 UC Berkeley 开发,现在已经成为生产级模型服务的主流选择之一。它的核心创新是 PagedAttention,一种显著减少 GPU 显存浪费的内存管理技术。
用更直白的话说,vLLM 能让你:
- 以高吞吐、低延迟的方式提供 LLM 推理服务
- 高效处理多个并发请求
- 直接暴露 OpenAI 兼容的 API 端点
- 支持包括 Qwen 全系列在内的多种模型架构
对于 Qwen 3.5 来说,vLLM 同时支持 dense 模型(如 Qwen3.5-7B、Qwen3.5-32B)和 MoE 变体,覆盖了整个模型产品线。
为什么用 vLLM 跑 Qwen 3.5
Qwen 3.5 的本地推理方案有好几种:Ollama、llama.cpp、Hugging Face Transformers 等。vLLM 的优势在以下场景中最为明显:
- 高并发需求:如果你要同时服务多个用户或批量处理请求,vLLM 的表现远好于逐条推理。
- 生产级服务:vLLM 自带 HTTP 服务器和 OpenAI 兼容 API,现有工具几乎不用改动就能对接。
- GPU 利用率:PagedAttention 减少了 KV cache 的显存浪费,让你在同样的硬件上跑更长的上下文或更大的模型。
- 吞吐优先:如果每秒生成的 token 数比五分钟搭完环境更重要,vLLM 就是对的工具。
如果你更偏向轻量级的本地实验,可以先看看用 Ollama 跑 Qwen 3.5。
安装
vLLM 需要 Python 3.8+ 和支持 CUDA 的 GPU。用 pip 安装即可:
pip install vllm要获得最新功能和 Qwen 3.5 支持,建议升级到最新版本:
pip install vllm --upgrade确保 CUDA 驱动是最新的。vLLM 在 CUDA 12.x 和较新的 NVIDIA 驱动下表现最佳。可以用以下命令验证安装:
python -c "import vllm; print(vllm.__version__)"用 vLLM 提供 Qwen 3.5 服务
最快的启动方式是通过 vLLM 的 OpenAI 兼容服务器:
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3.5-7B \
--host 0.0.0.0 \
--port 8000这会自动从 Hugging Face 下载模型并启动 API 服务。然后你可以像调用 OpenAI API 一样查询它:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen3.5-7B",
"messages": [{"role": "user", "content": "用一段话解释 PagedAttention。"}],
"max_tokens": 256
}'如果要用指令微调的聊天版本,使用对应的模型 ID:
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3.5-7B-Instruct \
--host 0.0.0.0 \
--port 8000支持的 Qwen 3.5 模型变体
vLLM 支持 Qwen 3.5 全系列模型,以下是最常用的几个:
| 模型 | 参数量 | 适用场景 |
|---|---|---|
| Qwen3.5-7B | 7B | 轻量级,快速推理 |
| Qwen3.5-7B-Instruct | 7B | 聊天与指令跟随 |
| Qwen3.5-32B | 32B | 更强推理能力,需要更多显存 |
| Qwen3.5-32B-Instruct | 32B | 生产级聊天部署 |
| Qwen3.5-MoE-A3B | MoE | 高效大规模服务 |
对于 MoE 模型,vLLM 会自动处理专家路由,无需额外配置。
性能调优建议
基础服务跑起来之后,可以通过以下方式进一步提升 vLLM + Qwen 3.5 的性能:
多卡张量并行:
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3.5-32B-Instruct \
--tensor-parallel-size 2调整最大模型长度(如果不需要完整上下文窗口):
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3.5-7B-Instruct \
--max-model-len 4096启用量化以减少显存占用:
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3.5-7B-Instruct \
--quantization awq提高 GPU 显存利用率:
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3.5-7B-Instruct \
--gpu-memory-utilization 0.95什么时候用 vLLM,什么时候用在线聊天
vLLM 的优势在于你有明确的基础设施需求:多用户服务、API 对接现有系统、或者需要数据完全留在自己的机器上。但搭建和维护的成本是实实在在的。
如果你还在评估哪个 Qwen 3.5 模型更适合自己的场景,先从浏览器开始更明智。你可以免费试用 Qwen 3.5 来测试不同模型的大小和行为,等确认了合适的模型和流量规模后,再用 vLLM 部署,这是最稳的路线。
快速 FAQ
vLLM 支持 Qwen 3.5 MoE 模型吗?
支持。vLLM 支持 MoE 架构,包括 Qwen 3.5 的 MoE 变体,专家路由在内部自动处理。
需要多少显存?
7B 模型 fp16 大约需要 14-16 GB。32B 模型大约需要 64 GB 以上。量化版本会显著降低这个数字。
vLLM 能用 GGUF 格式吗?
vLLM 主要支持 Hugging Face 格式的模型。如果想用 GGUF 文件,建议看看 llama.cpp 方案。
vLLM 比 Hugging Face Transformers 快吗?
在有并发请求的服务场景下,通常快很多。如果只是在 notebook 里跑单条推理,差距不会那么明显。

