
Qwen 3.5 基准测试结果:各任务表现对比
Qwen 3.5 是阿里云推出的模型家族,涵盖从 9B 到 397B 参数的 Dense 和 MoE 架构。本文梳理官方基准测试数据,帮你了解每个模型的强项。
模型概览
- Qwen3.5-9B — 9B Dense,速度最快的开源模型
- Qwen3.5-27B — 27B Dense,性能均衡
- Qwen3.5-35B-A3B — 35B MoE(3B 激活),高效推理
- Qwen3.5-122B-A10B — 122B MoE(10B 激活),深度分析
- Qwen3.5-397B-A17B — 397B MoE(17B 激活),旗舰模型
- Qwen3.5-Flash — 托管快速模型
- Qwen3.5-Plus — 托管高级模型
- Qwen3.6-Plus — 最新托管发布,支持多模态
通用推理
在 MMLU、MMLU-Pro、ARC-Challenge 等标准推理基准上:
- Qwen3.5-397B-A17B 在多数推理任务上达到或超过 GPT-4o 水平,每步仅激活 17B 参数。
- Qwen3.5-27B 表现超出其参数量预期,经常与 2-3 倍大小的模型竞争。
- Qwen3.5-9B 在知识类任务上结果出色。
编程基准
在 HumanEval、MBPP 和 LiveCodeBench 上:
- Qwen3.5-Plus 和 Qwen3.5-397B-A17B 在代码生成方面领先,接近前沿模型水平。
- Qwen3.5-35B-A3B 是编程任务的性价比之选。
- 开启 Thinking 模式 可显著提升多步代码生成和调试准确率。
数学与科学
在 GSM8K、MATH 等基准上:
- 旗舰 397B-A17B 在复杂多步数学问题上表现优异。
- Qwen3.5-122B-A10B 以较低计算成本提供强劲的数学能力。
- Thinking 模式对数学任务提升尤为明显。
多语言能力
- 所有模型原生支持中英文,质量很高。
- 大模型(122B、397B、Plus)在多种语言上都有竞争力。
- 9B 和 27B 模型在低资源语言上可能会损失一些细节。
上下文窗口
所有开源 Qwen 3.5 模型支持 262K 原生上下文窗口,可扩展至约 1M token。托管模型(Flash、Plus、Qwen3.6-Plus)默认 1M 上下文窗口。
横向对比
| 能力 | Qwen3.5-397B | GPT-4o | Claude Sonnet | Llama 3.1 405B |
|---|---|---|---|---|
| 通用推理 | 强 | 强 | 强 | 强 |
| 编程 | 很强 | 很强 | 很强 | 强 |
| 数学 | 强 | 很强 | 强 | 良好 |
| 多语言 | 很强(中日韩) | 强 | 强 | 良好 |
| 上下文窗口 | 262K–1M | 128K | 200K | 128K |
| 开放权重 | 是(Apache 2.0) | 否 | 否 | 是 |
如何选择?
- 快速任务:Qwen3.5-9B 或 Qwen3.5-Flash
- 日常均衡使用:Qwen3.5-27B 或 Qwen3.5-Plus
- 复杂推理:Qwen3.5-122B-A10B 或 Qwen3.5-397B-A17B
- 最新能力:Qwen3.6-Plus
亲自体验
基准测试只是参考,最好的评估方式是用你自己的任务来测试。免费试用 Qwen 3.5 — 切换模型、开启 Thinking 模式,在浏览器中直接对比。

