博客文章

如何用 vLLM 运行 Qwen 3.5:完整部署指南

使用 vLLM 部署 Qwen 3.5 模型的完整指南,覆盖安装、推理服务、模型变体选择与性能调优。适合需要高吞吐 vllm qwen3.5 部署的开发者。

如何用 vLLM 运行 Qwen 3.5:完整部署指南

如何用 vLLM 运行 Qwen 3.5

如果你在搜 vllm qwen3.5,大概率已经有了具体的部署场景:也许是要给多个用户同时提供推理服务,也许是想在自己的 GPU 集群上把吞吐跑到最高。vLLM 是实现这些目标最实用的方式之一。

这篇文章会讲清楚 vLLM 是什么、为什么适合跑 Qwen 3.5,以及从零到服务上线的完整流程。如果你只是想先试试 Qwen 3.5 的效果,不想搭任何环境,可以先去免费试用 Qwen 3.5,等确定需要自部署时再回来。

什么是 vLLM

vLLM 是一个开源的高性能 LLM 推理和服务框架,最早由 UC Berkeley 开发,现在已经成为生产级模型服务的主流选择之一。它的核心创新是 PagedAttention,一种显著减少 GPU 显存浪费的内存管理技术。

用更直白的话说,vLLM 能让你:

  • 以高吞吐、低延迟的方式提供 LLM 推理服务
  • 高效处理多个并发请求
  • 直接暴露 OpenAI 兼容的 API 端点
  • 支持包括 Qwen 全系列在内的多种模型架构

对于 Qwen 3.5 来说,vLLM 同时支持 dense 模型(如 Qwen3.5-7B、Qwen3.5-32B)和 MoE 变体,覆盖了整个模型产品线。

为什么用 vLLM 跑 Qwen 3.5

Qwen 3.5 的本地推理方案有好几种:Ollama、llama.cpp、Hugging Face Transformers 等。vLLM 的优势在以下场景中最为明显:

  • 高并发需求:如果你要同时服务多个用户或批量处理请求,vLLM 的表现远好于逐条推理。
  • 生产级服务:vLLM 自带 HTTP 服务器和 OpenAI 兼容 API,现有工具几乎不用改动就能对接。
  • GPU 利用率:PagedAttention 减少了 KV cache 的显存浪费,让你在同样的硬件上跑更长的上下文或更大的模型。
  • 吞吐优先:如果每秒生成的 token 数比五分钟搭完环境更重要,vLLM 就是对的工具。

如果你更偏向轻量级的本地实验,可以先看看用 Ollama 跑 Qwen 3.5

安装

vLLM 需要 Python 3.8+ 和支持 CUDA 的 GPU。用 pip 安装即可:

pip install vllm

要获得最新功能和 Qwen 3.5 支持,建议升级到最新版本:

pip install vllm --upgrade

确保 CUDA 驱动是最新的。vLLM 在 CUDA 12.x 和较新的 NVIDIA 驱动下表现最佳。可以用以下命令验证安装:

python -c "import vllm; print(vllm.__version__)"

用 vLLM 提供 Qwen 3.5 服务

最快的启动方式是通过 vLLM 的 OpenAI 兼容服务器:

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3.5-7B \
  --host 0.0.0.0 \
  --port 8000

这会自动从 Hugging Face 下载模型并启动 API 服务。然后你可以像调用 OpenAI API 一样查询它:

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3.5-7B",
    "messages": [{"role": "user", "content": "用一段话解释 PagedAttention。"}],
    "max_tokens": 256
  }'

如果要用指令微调的聊天版本,使用对应的模型 ID:

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3.5-7B-Instruct \
  --host 0.0.0.0 \
  --port 8000

支持的 Qwen 3.5 模型变体

vLLM 支持 Qwen 3.5 全系列模型,以下是最常用的几个:

模型参数量适用场景
Qwen3.5-7B7B轻量级,快速推理
Qwen3.5-7B-Instruct7B聊天与指令跟随
Qwen3.5-32B32B更强推理能力,需要更多显存
Qwen3.5-32B-Instruct32B生产级聊天部署
Qwen3.5-MoE-A3BMoE高效大规模服务

对于 MoE 模型,vLLM 会自动处理专家路由,无需额外配置。

性能调优建议

基础服务跑起来之后,可以通过以下方式进一步提升 vLLM + Qwen 3.5 的性能:

多卡张量并行

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3.5-32B-Instruct \
  --tensor-parallel-size 2

调整最大模型长度(如果不需要完整上下文窗口):

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3.5-7B-Instruct \
  --max-model-len 4096

启用量化以减少显存占用:

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3.5-7B-Instruct \
  --quantization awq

提高 GPU 显存利用率

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3.5-7B-Instruct \
  --gpu-memory-utilization 0.95

什么时候用 vLLM,什么时候用在线聊天

vLLM 的优势在于你有明确的基础设施需求:多用户服务、API 对接现有系统、或者需要数据完全留在自己的机器上。但搭建和维护的成本是实实在在的。

如果你还在评估哪个 Qwen 3.5 模型更适合自己的场景,先从浏览器开始更明智。你可以免费试用 Qwen 3.5 来测试不同模型的大小和行为,等确认了合适的模型和流量规模后,再用 vLLM 部署,这是最稳的路线。

快速 FAQ

vLLM 支持 Qwen 3.5 MoE 模型吗?

支持。vLLM 支持 MoE 架构,包括 Qwen 3.5 的 MoE 变体,专家路由在内部自动处理。

需要多少显存?

7B 模型 fp16 大约需要 14-16 GB。32B 模型大约需要 64 GB 以上。量化版本会显著降低这个数字。

vLLM 能用 GGUF 格式吗?

vLLM 主要支持 Hugging Face 格式的模型。如果想用 GGUF 文件,建议看看 llama.cpp 方案

vLLM 比 Hugging Face Transformers 快吗?

在有并发请求的服务场景下,通常快很多。如果只是在 notebook 里跑单条推理,差距不会那么明显。

Q-Chat Team

Q-Chat Team

如何用 vLLM 运行 Qwen 3.5:完整部署指南 | Qwen 博客