
千问3.7 Max Benchmark:重点不是会不会聊天,而是能不能把任务做下去
千问3.7 Max 不是一次普通聊天模型小更新。官方对 Qwen3.7 的定义很明确:它面向 agent 工作流,重点是编程、工具调用、办公自动化和长程任务执行。
所以看 qwen-3.7 benchmark、qwen3.7 benchmark 或 qwen 3.7 max benchmark 时,不应该只问它回答问题是不是更聪明。更关键的问题是,Qwen3.7-Max 能不能在工具、文件、测试和反馈之间持续推进任务。
模型总览可以看 千问3.7 Max 模型页。
第一组重点是 agentic coding
官方 Qwen3.7-Max benchmark 里,很多核心分数都和仓库、终端和真实工程任务有关:
| Benchmark | Qwen3.7-Max 成绩 | 说明 |
|---|---|---|
| Terminal-Bench 2.0-Terminus | 69.7 | 终端执行和修复循环能力强 |
| SWE-Verified | 80.4 | 仓库级 bug 修复已经进入第一梯队 |
| SWE-Pro | 60.6 | 更难的软件工程任务 |
| SWE-Multilingual | 78.3 | 跨语言代码任务 |
| SciCode | 53.5 | 科学计算和技术实现任务 |
这里最值得注意的是测试环境。Qwen 官方说明,SWE-Bench 系列使用了带 bash 和文件编辑工具的内部 agent scaffold,Terminal-Bench 使用 256K 上下文和五小时超时。这个设置比单轮代码题更接近真实 agent 使用方式。
所以这组分数的含义不是“千问 3.7 Max 会写代码片段”,而是 qwen3.7 正在被当作能进入执行循环的模型来训练和评估。
工具调用才是更大的信号
比传统代码分数更值得看的,是这些结果:
- MCP-Mark:60.8
- MCP-Atlas:76.4
- SkillsBench:59.2
- BFCL-V4:75.0
- SpreadSheetBench-v1:87.0
- Kernel Bench L3:1.98x median speedup,96% win rate
这些 benchmark 合在一起,说明千问3.7 Max 的重点不是只把答案写漂亮,而是能不能调用工具、穿过 agent harness、处理真实生产环境里的不确定性。
Qwen 团队还强调 cross-harness generalization,也就是模型不是只适配某一个固定框架。官方材料里提到 Claude Code、OpenClaw、Qwen Code 和自定义 tool-use 框架。对开发者来说,这比单个 demo 分数更重要。
35 小时 kernel 优化是最有代表性的 demo
这次最有代表性的 Qwen 3.7 Max benchmark,不是一行榜单分数,而是官方写到的长时间自主 kernel 优化。
在官方案例里,Qwen3.7-Max 面对一个训练中没有见过的 T-Head ZW-M890 平台,连续执行约 35 小时,完成 432 次 kernel evaluation 和 1,158 次 tool call,最后相对 Triton reference 达到 10.0x geometric mean speedup。
这就是 qwen-3.7 最想证明的能力:不是简单地写一段代码,而是在编译失败、正确性 bug、性能瓶颈和多轮重构中保持策略不乱,持续往前推进。
普通聊天 benchmark 很难测出这个能力。
推理分数依然重要
千问3.7 Max 的推理成绩也很强:
| Benchmark | 成绩 |
|---|---|
| GPQA Diamond | 92.4 |
| HLE | 41.4 |
| HMMT 2026 Feb | 97.1 |
| IMOAnswerBench | 90.0 |
| IFBench | 79.1 |
| WMT24++ | 85.8 |
这些分数说明一件事:agent 能力不是只靠会调工具。工具调用如果没有判断力,只会变成噪音自动化。Qwen 3.7 Max 真正有意思的地方,是把复杂推理和长程执行放在同一条发布主线里。
应该怎么自己验证
不要只拿一个短 prompt 测 qwen3.7。更好的测试方法是:
- 给它真实 bug 报告和日志,让它按证据排序给出修复计划。
- 让它比较两个实现方案,并说明哪个更安全。
- 给它多文件功能需求,要求先写测试和验收条件。
- 让它说明什么时候该调工具、什么时候该停、怎么验证。
- 同一任务拿 Qwen3.6-Plus 或 Qwen3.6-Max-Preview 对比失败恢复能力。
这样看 Qwen3.7-Max benchmark 才有意义。问题不是“它有没有更高分”,而是“任务变脏、变长、变复杂以后,它还能不能继续推进”。
结论
千问3.7 Max benchmark 指向的是一个 agent 工作流模型:编程 agent、工具编排、长文档、办公自动化和多小时执行。
分数本身很强,但更重要的是评估形态变了。qwen-3.7、qwen3.7 和 qwen 3.7 Max 不再只是按普通聊天模型的方式被讲述,而是更像一个需要规划、行动、观察和恢复的系统。
继续阅读:千问3.7 Max API 接入指南 或 千问3.7 Max 上下文窗口说明。

