
Qwen 3.5 Hugging Face:下载、部署与对话
如果你在搜 qwen 3.5 huggingface,你大概想做这三件事中的一件:下载模型权重、把模型加载到 Python 代码里、或者在选定模型之前先比较一下可用的变体。这篇文章都会覆盖到。
Hugging Face 是 Qwen 3.5 模型权重的主要分发渠道。所有官方模型都托管在 Hugging Face 的 Qwen 组织 下,包含模型卡片、文档和社区讨论。如果你想跳过配置直接试用,可以先免费试用 Qwen 3.5。
在 Hugging Face 上找到 Qwen 3.5 模型
Qwen 团队将所有 Qwen 3.5 模型发布在 Hugging Face 的 Qwen 命名空间下。你可以在 huggingface.co/Qwen 浏览,或者在模型中心搜索"Qwen3.5"。
命名规则遵循一致的模式:
- Qwen/Qwen3.5-7B — 基础预训练模型,70 亿参数
- Qwen/Qwen3.5-7B-Instruct — 指令微调聊天版本
- Qwen/Qwen3.5-32B — 更大的 dense 模型
- Qwen/Qwen3.5-32B-Instruct — 更大的聊天版本
每个模型卡片都包含训练数据、评估结果、预期用途和使用示例等信息。大多数人需要的是 Instruct 版本,用于聊天和指令跟随任务。
用 Transformers 下载 Qwen 3.5
从 Hugging Face 使用 Qwen 3.5 最常见的方式是通过 transformers 库。首先确保安装了必要的包:
pip install transformers torch accelerate然后只需几行代码就能加载模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3.5-7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)device_map="auto" 会自动将模型分配到可用的 GPU 上,如果没有 GPU 则回退到 CPU。torch_dtype="auto" 会选择模型权重的原生精度。
运行推理
模型加载完成后,生成文本遵循标准的 transformers 流程。对于聊天模型,使用 chat template:
messages = [
{"role": "system", "content": "你是一个有帮助的助手。"},
{"role": "user", "content": "Qwen 3.5 和之前的 Qwen 模型有什么不同?"}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.7,
top_p=0.9
)
response = tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True)
print(response)这个模式适用于所有 Qwen 3.5 Instruct 变体。Chat template 会正确处理 system、user 和 assistant 轮次的格式。
只下载不加载
如果你想下载模型权重但不加载到内存中(比如要传输到另一台机器或用其他推理引擎),可以使用 Hugging Face CLI:
pip install huggingface_hub
huggingface-cli download Qwen/Qwen3.5-7B-Instruct或者用代码下载:
from huggingface_hub import snapshot_download
snapshot_download(
repo_id="Qwen/Qwen3.5-7B-Instruct",
local_dir="./qwen3.5-7b-instruct"
)如果你计划用 vLLM 或其他从本地目录读取模型的推理框架,这种方式特别有用。
Qwen 3.5 变体对比
选择哪个变体取决于你的硬件和使用场景,以下是实用对比:
| 模型 | 参数量 | 显存需求 (fp16) | 最适合 |
|---|---|---|---|
| Qwen3.5-7B-Instruct | 7B | ~14 GB | 快速迭代,消费级 GPU |
| Qwen3.5-14B-Instruct | 14B | ~28 GB | 质量与速度的平衡 |
| Qwen3.5-32B-Instruct | 32B | ~64 GB | 强推理能力,多卡配置 |
| Qwen3.5-MoE-A3B-Instruct | MoE | ~8 GB 活跃参数 | 高效获得大模型质量 |
MoE(混合专家)变体特别值得关注:它们每个 token 只激活总参数的一小部分,让你以更低的计算成本获得更强的模型质量。无论是本地部署还是云端部署,这都很有吸引力。
使用 Hugging Face 上的量化模型
社区积极发布 Qwen 3.5 模型的量化版本,显著降低显存需求:
- GPTQ 量化模型:搜索
Qwen3.5-7B-Instruct-GPTQ - AWQ 量化模型:搜索
Qwen3.5-7B-Instruct-AWQ - GGUF 文件:用于 llama.cpp(参见我们的 GGUF 指南)
加载 GPTQ 模型和加载全精度版本几乎一样:
model = AutoModelForCausalLM.from_pretrained(
"Qwen/Qwen3.5-7B-Instruct-GPTQ-Int4",
device_map="auto"
)使用 Qwen 3.5 的实用建议
先看模型卡片。 每个 Qwen 3.5 模型卡片都包含关于生成参数、上下文长度和已知限制的具体建议。
尽量启用 flash attention。 如果你的 GPU 支持,启用 flash attention 可以显著加速推理:
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto",
attn_implementation="flash_attention_2"
)注意上下文长度。 Qwen 3.5 模型支持长上下文,但更长的输入会占用更多显存。将 max_new_tokens 设为合理的值。
从 Instruct 模型开始。 除非你有特定的微调需求,Instruct 变体几乎总是聊天、代码生成和通用任务的最佳选择。
什么时候用 Hugging Face,什么时候用在线聊天
当你需要直接访问模型权重来构建自定义推理管线、微调或集成到自己的应用中时,Hugging Face 是正确的选择。它给你对模型运行方式的完全控制。
但如果你只是想和 Qwen 3.5 聊天、比较不同模型的表现或在写代码之前测试 prompt,用浏览器更快。你可以先免费试用 Qwen 3.5,等清楚自己的需求后再转到本地 Hugging Face 部署。
快速 FAQ
下载 Qwen 3.5 需要 Hugging Face 账号吗?
部分模型可能需要在 Hugging Face 上接受许可条款,这需要一个账号。注册是免费的,只需几秒钟。
可以微调 Hugging Face 上的 Qwen 3.5 模型吗?
可以。基础模型和 Instruct 变体都可以使用 LoRA、QLoRA 或 transformers 库的全量微调等标准工具进行微调。
应该从哪个 Qwen 3.5 模型开始?
如果你有一张消费级 GPU(24 GB 显存),从 7B Instruct 模型开始。如果有更多硬件资源,32B 模型的质量明显更好。

