博客文章

千问3.7 Max Benchmark:Agent 编程、推理和长程任务成绩怎么看

拆解千问3.7 Max benchmark,覆盖 qwen-3.7、qwen3.7、qwen 3.7 Max 在编程 agent、工具调用、推理和长程执行中的表现。

千问3.7 Max Benchmark:Agent 编程、推理和长程任务成绩怎么看

千问3.7 Max Benchmark:重点不是会不会聊天,而是能不能把任务做下去

千问3.7 Max 不是一次普通聊天模型小更新。官方对 Qwen3.7 的定义很明确:它面向 agent 工作流,重点是编程、工具调用、办公自动化和长程任务执行。

所以看 qwen-3.7 benchmarkqwen3.7 benchmarkqwen 3.7 max benchmark 时,不应该只问它回答问题是不是更聪明。更关键的问题是,Qwen3.7-Max 能不能在工具、文件、测试和反馈之间持续推进任务。

模型总览可以看 千问3.7 Max 模型页

第一组重点是 agentic coding

官方 Qwen3.7-Max benchmark 里,很多核心分数都和仓库、终端和真实工程任务有关:

BenchmarkQwen3.7-Max 成绩说明
Terminal-Bench 2.0-Terminus69.7终端执行和修复循环能力强
SWE-Verified80.4仓库级 bug 修复已经进入第一梯队
SWE-Pro60.6更难的软件工程任务
SWE-Multilingual78.3跨语言代码任务
SciCode53.5科学计算和技术实现任务

这里最值得注意的是测试环境。Qwen 官方说明,SWE-Bench 系列使用了带 bash 和文件编辑工具的内部 agent scaffold,Terminal-Bench 使用 256K 上下文和五小时超时。这个设置比单轮代码题更接近真实 agent 使用方式。

所以这组分数的含义不是“千问 3.7 Max 会写代码片段”,而是 qwen3.7 正在被当作能进入执行循环的模型来训练和评估。

工具调用才是更大的信号

比传统代码分数更值得看的,是这些结果:

  • MCP-Mark:60.8
  • MCP-Atlas:76.4
  • SkillsBench:59.2
  • BFCL-V4:75.0
  • SpreadSheetBench-v1:87.0
  • Kernel Bench L3:1.98x median speedup,96% win rate

这些 benchmark 合在一起,说明千问3.7 Max 的重点不是只把答案写漂亮,而是能不能调用工具、穿过 agent harness、处理真实生产环境里的不确定性。

Qwen 团队还强调 cross-harness generalization,也就是模型不是只适配某一个固定框架。官方材料里提到 Claude Code、OpenClaw、Qwen Code 和自定义 tool-use 框架。对开发者来说,这比单个 demo 分数更重要。

35 小时 kernel 优化是最有代表性的 demo

这次最有代表性的 Qwen 3.7 Max benchmark,不是一行榜单分数,而是官方写到的长时间自主 kernel 优化。

在官方案例里,Qwen3.7-Max 面对一个训练中没有见过的 T-Head ZW-M890 平台,连续执行约 35 小时,完成 432 次 kernel evaluation 和 1,158 次 tool call,最后相对 Triton reference 达到 10.0x geometric mean speedup。

这就是 qwen-3.7 最想证明的能力:不是简单地写一段代码,而是在编译失败、正确性 bug、性能瓶颈和多轮重构中保持策略不乱,持续往前推进。

普通聊天 benchmark 很难测出这个能力。

推理分数依然重要

千问3.7 Max 的推理成绩也很强:

Benchmark成绩
GPQA Diamond92.4
HLE41.4
HMMT 2026 Feb97.1
IMOAnswerBench90.0
IFBench79.1
WMT24++85.8

这些分数说明一件事:agent 能力不是只靠会调工具。工具调用如果没有判断力,只会变成噪音自动化。Qwen 3.7 Max 真正有意思的地方,是把复杂推理和长程执行放在同一条发布主线里。

应该怎么自己验证

不要只拿一个短 prompt 测 qwen3.7。更好的测试方法是:

  1. 给它真实 bug 报告和日志,让它按证据排序给出修复计划。
  2. 让它比较两个实现方案,并说明哪个更安全。
  3. 给它多文件功能需求,要求先写测试和验收条件。
  4. 让它说明什么时候该调工具、什么时候该停、怎么验证。
  5. 同一任务拿 Qwen3.6-Plus 或 Qwen3.6-Max-Preview 对比失败恢复能力。

这样看 Qwen3.7-Max benchmark 才有意义。问题不是“它有没有更高分”,而是“任务变脏、变长、变复杂以后,它还能不能继续推进”。

结论

千问3.7 Max benchmark 指向的是一个 agent 工作流模型:编程 agent、工具编排、长文档、办公自动化和多小时执行。

分数本身很强,但更重要的是评估形态变了。qwen-3.7、qwen3.7 和 qwen 3.7 Max 不再只是按普通聊天模型的方式被讲述,而是更像一个需要规划、行动、观察和恢复的系统。

继续阅读:千问3.7 Max API 接入指南千问3.7 Max 上下文窗口说明

参考资料

Q-Chat Team

Q-Chat Team