千问3.7 Max Benchmark：Agent 编程、推理和长程任务成绩怎么看

千问3.7 Max Benchmark：重点不是会不会聊天，而是能不能把任务做下去

千问3.7 Max 不是一次普通聊天模型小更新。官方对 Qwen3.7 的定义很明确：它面向 agent 工作流，重点是编程、工具调用、办公自动化和长程任务执行。

所以看 qwen-3.7 benchmark、qwen3.7 benchmark 或 qwen 3.7 max benchmark 时，不应该只问它回答问题是不是更聪明。更关键的问题是，Qwen3.7-Max 能不能在工具、文件、测试和反馈之间持续推进任务。

模型总览可以看千问3.7 Max 模型页。

第一组重点是 agentic coding

官方 Qwen3.7-Max benchmark 里，很多核心分数都和仓库、终端和真实工程任务有关：

Benchmark	Qwen3.7-Max 成绩	说明
Terminal-Bench 2.0-Terminus	69.7	终端执行和修复循环能力强
SWE-Verified	80.4	仓库级 bug 修复已经进入第一梯队
SWE-Pro	60.6	更难的软件工程任务
SWE-Multilingual	78.3	跨语言代码任务
SciCode	53.5	科学计算和技术实现任务

这里最值得注意的是测试环境。Qwen 官方说明，SWE-Bench 系列使用了带 bash 和文件编辑工具的内部 agent scaffold，Terminal-Bench 使用 256K 上下文和五小时超时。这个设置比单轮代码题更接近真实 agent 使用方式。

所以这组分数的含义不是“千问 3.7 Max 会写代码片段”，而是 qwen3.7 正在被当作能进入执行循环的模型来训练和评估。

工具调用才是更大的信号

比传统代码分数更值得看的，是这些结果：

MCP-Mark：60.8
MCP-Atlas：76.4
SkillsBench：59.2
BFCL-V4：75.0
SpreadSheetBench-v1：87.0
Kernel Bench L3：1.98x median speedup，96% win rate

这些 benchmark 合在一起，说明千问3.7 Max 的重点不是只把答案写漂亮，而是能不能调用工具、穿过 agent harness、处理真实生产环境里的不确定性。

Qwen 团队还强调 cross-harness generalization，也就是模型不是只适配某一个固定框架。官方材料里提到 Claude Code、OpenClaw、Qwen Code 和自定义 tool-use 框架。对开发者来说，这比单个 demo 分数更重要。

35 小时 kernel 优化是最有代表性的 demo

这次最有代表性的 Qwen 3.7 Max benchmark，不是一行榜单分数，而是官方写到的长时间自主 kernel 优化。

在官方案例里，Qwen3.7-Max 面对一个训练中没有见过的 T-Head ZW-M890 平台，连续执行约 35 小时，完成 432 次 kernel evaluation 和 1,158 次 tool call，最后相对 Triton reference 达到 10.0x geometric mean speedup。

这就是 qwen-3.7 最想证明的能力：不是简单地写一段代码，而是在编译失败、正确性 bug、性能瓶颈和多轮重构中保持策略不乱，持续往前推进。

普通聊天 benchmark 很难测出这个能力。