Qwen3.6-Plus benchmark，这次最值得看的，不是聊天分数，而是它能不能把活干下去

事情是这样的。

我本来只是想去翻一下 Qwen3.6-Plus 的 benchmark，看看它这次到底比 Qwen 3.5 强了多少。结果越看越觉得，这次最值得聊的，根本不是某一个分数多了几点。

真正值得聊的是，Qwen 团队给它选的考场，已经明显变了。

我参考的是 Qwen 官方发布页、Alibaba Cloud 在 2026 年 4 月 2 日发布的公告，再对照了 OpenRouter 的公开模型页。这几份材料拼在一起，你会发现一个很清楚的信号。

这次真正变的，是考场

Qwen3.6-Plus 已经不太满足于证明自己会答题，会写一段代码，会在通用榜单上刷个存在感。它这次更想证明的是另一件事，你把一个真实任务丢给它，它能不能看懂，能不能规划，能不能调工具，能不能在足够长的上下文里把这件事真的往前推。

这个方向，坦率的讲，比单纯多拿几个选择题 benchmark 第一名，更有意思。

如果你只想看一句话结论，我的判断是，Qwen3.6-Plus 这次最强的地方，不是把传统聊天能力卷到了一个离谱的新高度，而是把「能干活」这件事，终于开始拆成一组更像现实世界的 benchmark 来证明。

SWE-bench 当然还是要先看

这个数是 78.8。

它很重要，因为这类 benchmark 至少说明一件事，模型已经不是停留在补全一小段函数，或者写几个孤立代码片段了，它得读仓库，理解问题，修改文件，还要让结果过得去。78.8 这个成绩，不是那种一眼望过去把所有人都甩开一大截的数字，但已经非常接近第一梯队了。也就是说，如果你现在拿它去做仓库级修 bug、改前端、接一点自动化脚本，这条线大概率不是闹着玩的。

但说真的，SWE-bench 还不是最让我停住的那一行。

真正让我多看两眼的，是执行链路这几行

Terminal-Bench 2.0，Qwen3.6-Plus 是 61.6。

TAU3-Bench，它是 70.7。

DeepPlanning，它是 41.5。

这几个 benchmark 放在一起看，味道就出来了。它们测的不是「你会不会」，而是「你能不能一步一步把事情做下去」。尤其是 Terminal-Bench 这种东西，它更像你把模型扔进一个真实终端环境，看它会不会自己摸索，会不会自己踩坑，会不会在执行和反馈之间来回迭代。Qwen3.6-Plus 在这块的成绩，已经明显不是传统聊天模型的路子了。

再往后看，MCPMark 是 48.2，HLE w tool 是 50.6，QwenWebBench 是 1501.7。

这几个数给我的感觉很直接，它不是只想做一个回答器，它想做一个工作流参与者。

这话听着有点抽象，我换个更人话一点的说法。

以前很多模型给人的感觉，是你问它，它答你。你让它帮你想，它就负责想。至于想完之后怎么做，通常还是你自己来。

Qwen3.6-Plus 这次的 benchmark 组合，更像是在说，不，我不只想负责想，我还想负责往前走两步。

多模态这边，也不是来陪跑的

RealWorldQA，它是 85.4。

OmniDocBench 1.5，它是 91.2。

CC-OCR，它是 83.4。

AI2D_TEST，它是 94.4。

CountBench，它是 97.6。

这几行一起看，比单独看某一个分数更有意思。因为它说明 Qwen3.6-Plus 不是单纯把文本推理做强一点，然后顺手挂一个多模态标签上去。它在文档理解、OCR、图表和图形理解、甚至更偏现实世界感知的任务上，都已经开始出现那种很明确的产品取向了。

Alibaba Cloud 那篇公告里有一句话我很认同，大意是这个模型在往 capability loop 走，也就是把感知、推理、执行放进一个连续流程里。你再回头看这些 OCR、文档、视觉 benchmark，就很容易理解为什么它们会跟 agentic coding 一起被放在同一轮发布里。

这不是堆功能。

这是在补齐一个闭环。

但别把它神化

我挺烦现在很多模型文章一上来就是全方位领先，遥遥领先，全面碾压。那种文章看两段就没劲了，因为你知道作者根本没认真看表。

Qwen3.6-Plus 这张表，根本不是全胜。

比如 MMMU 它是 86.0，没有拿到表里的最高分。SimpleVQA 它是 67.3，也不是最强。SkillsBench Avg5 它是 45.7，还是没把这张表直接刷穿。NL2Repo 它是 37.9，同样不是第一。

这反而让我更愿意信它一点。

因为一个真实往产品走的模型，本来就不太可能在所有 benchmark 上都齐刷刷封神。它更常见的状态是，在自己最想打的那几条线上，出现非常明确的拉升，然后在一些传统项目或者更偏单点能力的任务上，还保留着边界。

Qwen3.6-Plus 现在给我的感觉就是这样。

它不是一个什么都第一的模型。

它是一个方向已经非常清楚的模型。

所以这张表，对普通开发者到底有啥用

如果你现在做的是仓库级 coding agent，浏览器 agent，终端自动化，长文档工作流，文档解析，截图到代码，或者那种要一边看材料一边调工具一边继续干的复杂流程，那 Qwen3.6-Plus 这次是真的值得认真测一轮。

因为它的强，不只是写代码更顺了。

而是它更像一个会持续推进流程的系统。

你把一堆需求文档、设计稿、报错日志、截图、代码仓库一起甩给它，它未必每次都完美，但它现在明显比很多传统模型更像那个愿意把活接过去，然后继续往下跑的人。

反过来说，如果你的使用场景还是短对话、简单问答、普通总结、轻量写作，那这轮 benchmark 的很多提升，你大概率感知不到。不是它没提升，而是这些 benchmark 本来就不是为了那种场景设计的。

最后一句判断

所以我最后的结论其实很简单。

Qwen3.6-Plus 最值得看的，不是它有没有把每一张榜都打成第一。

真正值得看的是，它把 benchmark 的叙事，从「模型会不会答题」往「模型能不能干活」推了一大步。

这一步，我觉得挺关键。

因为从这个时间点开始，很多模型之间的差别，可能不再主要体现在你问它一个问题，它答得像不像老师。差别会越来越体现在，你给它一个模糊目标，它能不能自己往前走，能走多远，中间要不要你一直拽着。

Qwen3.6-Plus 现在给我的感受就是，它正在很认真地回答这个问题。

而且，已经答得有点东西了。

Qwen3.6-Plus benchmark，这次最值得看的，不是聊天分数，而是它能不能把活干下去

目录

Qwen3.6-Plus benchmark，这次最值得看的，不是聊天分数，而是它能不能把活干下去

这次真正变的，是考场

SWE-bench 当然还是要先看

真正让我多看两眼的，是执行链路这几行

多模态这边，也不是来陪跑的

但别把它神化

所以这张表，对普通开发者到底有啥用

最后一句判断

参考资料