如何用 vLLM 运行 Qwen 3.5

如果你在搜 vllm qwen3.5，大概率已经有了具体的部署场景：也许是要给多个用户同时提供推理服务，也许是想在自己的 GPU 集群上把吞吐跑到最高。vLLM 是实现这些目标最实用的方式之一。

这篇文章会讲清楚 vLLM 是什么、为什么适合跑 Qwen 3.5，以及从零到服务上线的完整流程。如果你只是想先试试 Qwen 3.5 的效果，不想搭任何环境，可以先去免费试用 Qwen 3.5，等确定需要自部署时再回来。

什么是 vLLM

vLLM 是一个开源的高性能 LLM 推理和服务框架，最早由 UC Berkeley 开发，现在已经成为生产级模型服务的主流选择之一。它的核心创新是 PagedAttention，一种显著减少 GPU 显存浪费的内存管理技术。

用更直白的话说，vLLM 能让你：

以高吞吐、低延迟的方式提供 LLM 推理服务
高效处理多个并发请求
直接暴露 OpenAI 兼容的 API 端点
支持包括 Qwen 全系列在内的多种模型架构

对于 Qwen 3.5 来说，vLLM 同时支持 dense 模型（如 Qwen3.5-7B、Qwen3.5-32B）和 MoE 变体，覆盖了整个模型产品线。

为什么用 vLLM 跑 Qwen 3.5

Qwen 3.5 的本地推理方案有好几种：Ollama、llama.cpp、Hugging Face Transformers 等。vLLM 的优势在以下场景中最为明显：

高并发需求：如果你要同时服务多个用户或批量处理请求，vLLM 的表现远好于逐条推理。
生产级服务：vLLM 自带 HTTP 服务器和 OpenAI 兼容 API，现有工具几乎不用改动就能对接。
GPU 利用率：PagedAttention 减少了 KV cache 的显存浪费，让你在同样的硬件上跑更长的上下文或更大的模型。
吞吐优先：如果每秒生成的 token 数比五分钟搭完环境更重要，vLLM 就是对的工具。

如果你更偏向轻量级的本地实验，可以先看看用 Ollama 跑 Qwen 3.5。

安装

vLLM 需要 Python 3.8+ 和支持 CUDA 的 GPU。用 pip 安装即可：

pip install vllm

要获得最新功能和 Qwen 3.5 支持，建议升级到最新版本：

pip install vllm --upgrade

确保 CUDA 驱动是最新的。vLLM 在 CUDA 12.x 和较新的 NVIDIA 驱动下表现最佳。可以用以下命令验证安装：

python -c "import vllm; print(vllm.__version__)"

用 vLLM 提供 Qwen 3.5 服务

最快的启动方式是通过 vLLM 的 OpenAI 兼容服务器：

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3.5-7B \
  --host 0.0.0.0 \
  --port 8000

这会自动从 Hugging Face 下载模型并启动 API 服务。然后你可以像调用 OpenAI API 一样查询它：

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3.5-7B",
    "messages": [{"role": "user", "content": "用一段话解释 PagedAttention。"}],
    "max_tokens": 256
  }'

如果要用指令微调的聊天版本，使用对应的模型 ID：

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3.5-7B-Instruct \
  --host 0.0.0.0 \
  --port 8000

支持的 Qwen 3.5 模型变体

vLLM 支持 Qwen 3.5 全系列模型，以下是最常用的几个：

模型	参数量	适用场景
Qwen3.5-7B	7B	轻量级，快速推理
Qwen3.5-7B-Instruct	7B	聊天与指令跟随
Qwen3.5-32B	32B	更强推理能力，需要更多显存
Qwen3.5-32B-Instruct	32B	生产级聊天部署
Qwen3.5-MoE-A3B	MoE	高效大规模服务

对于 MoE 模型，vLLM 会自动处理专家路由，无需额外配置。

性能调优建议

基础服务跑起来之后，可以通过以下方式进一步提升 vLLM + Qwen 3.5 的性能：

多卡张量并行：

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3.5-32B-Instruct \
  --tensor-parallel-size 2

调整最大模型长度（如果不需要完整上下文窗口）：

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3.5-7B-Instruct \
  --max-model-len 4096

启用量化以减少显存占用：

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3.5-7B-Instruct \
  --quantization awq

提高 GPU 显存利用率：

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3.5-7B-Instruct \
  --gpu-memory-utilization 0.95

如何用 vLLM 运行 Qwen 3.5：完整部署指南

目录

如何用 vLLM 运行 Qwen 3.5

什么是 vLLM

为什么用 vLLM 跑 Qwen 3.5

安装

用 vLLM 提供 Qwen 3.5 服务

支持的 Qwen 3.5 模型变体

性能调优建议

什么时候用 vLLM，什么时候用在线聊天

快速 FAQ

vLLM 支持 Qwen 3.5 MoE 模型吗？

需要多少显存？

vLLM 能用 GGUF 格式吗？

vLLM 比 Hugging Face Transformers 快吗？