博客文章

Qwen3.6-Plus benchmark,这次最值得看的,不是聊天分数,而是它能不能把活干下去

结合 Qwen 官方发布页和 Alibaba Cloud 公告,拆解 Qwen3.6-Plus 在 agentic coding、工具调用、多模态和长上下文 benchmark 里的真实位置,看看它为什么更像一个会持续推进流程的模型。

Qwen3.6-Plus benchmark,这次最值得看的,不是聊天分数,而是它能不能把活干下去

Qwen3.6-Plus benchmark,这次最值得看的,不是聊天分数,而是它能不能把活干下去

事情是这样的。

我本来只是想去翻一下 Qwen3.6-Plus 的 benchmark,看看它这次到底比 Qwen 3.5 强了多少。结果越看越觉得,这次最值得聊的,根本不是某一个分数多了几点。

真正值得聊的是,Qwen 团队给它选的考场,已经明显变了。

我参考的是 Qwen 官方发布页Alibaba Cloud 在 2026 年 4 月 2 日发布的公告,再对照了 OpenRouter 的公开模型页。这几份材料拼在一起,你会发现一个很清楚的信号。

这次真正变的,是考场

Qwen3.6-Plus 已经不太满足于证明自己会答题,会写一段代码,会在通用榜单上刷个存在感。它这次更想证明的是另一件事,你把一个真实任务丢给它,它能不能看懂,能不能规划,能不能调工具,能不能在足够长的上下文里把这件事真的往前推。

这个方向,坦率的讲,比单纯多拿几个选择题 benchmark 第一名,更有意思。

如果你只想看一句话结论,我的判断是,Qwen3.6-Plus 这次最强的地方,不是把传统聊天能力卷到了一个离谱的新高度,而是把「能干活」这件事,终于开始拆成一组更像现实世界的 benchmark 来证明。

SWE-bench 当然还是要先看

这个数是 78.8。

它很重要,因为这类 benchmark 至少说明一件事,模型已经不是停留在补全一小段函数,或者写几个孤立代码片段了,它得读仓库,理解问题,修改文件,还要让结果过得去。78.8 这个成绩,不是那种一眼望过去把所有人都甩开一大截的数字,但已经非常接近第一梯队了。也就是说,如果你现在拿它去做仓库级修 bug、改前端、接一点自动化脚本,这条线大概率不是闹着玩的。

但说真的,SWE-bench 还不是最让我停住的那一行。

真正让我多看两眼的,是执行链路这几行

Terminal-Bench 2.0,Qwen3.6-Plus 是 61.6。

TAU3-Bench,它是 70.7。

DeepPlanning,它是 41.5。

这几个 benchmark 放在一起看,味道就出来了。它们测的不是「你会不会」,而是「你能不能一步一步把事情做下去」。尤其是 Terminal-Bench 这种东西,它更像你把模型扔进一个真实终端环境,看它会不会自己摸索,会不会自己踩坑,会不会在执行和反馈之间来回迭代。Qwen3.6-Plus 在这块的成绩,已经明显不是传统聊天模型的路子了。

再往后看,MCPMark 是 48.2,HLE w tool 是 50.6,QwenWebBench 是 1501.7。

这几个数给我的感觉很直接,它不是只想做一个回答器,它想做一个工作流参与者。

这话听着有点抽象,我换个更人话一点的说法。

以前很多模型给人的感觉,是你问它,它答你。你让它帮你想,它就负责想。至于想完之后怎么做,通常还是你自己来。

Qwen3.6-Plus 这次的 benchmark 组合,更像是在说,不,我不只想负责想,我还想负责往前走两步。

多模态这边,也不是来陪跑的

RealWorldQA,它是 85.4。

OmniDocBench 1.5,它是 91.2。

CC-OCR,它是 83.4。

AI2D_TEST,它是 94.4。

CountBench,它是 97.6。

这几行一起看,比单独看某一个分数更有意思。因为它说明 Qwen3.6-Plus 不是单纯把文本推理做强一点,然后顺手挂一个多模态标签上去。它在文档理解、OCR、图表和图形理解、甚至更偏现实世界感知的任务上,都已经开始出现那种很明确的产品取向了。

Alibaba Cloud 那篇公告里有一句话我很认同,大意是这个模型在往 capability loop 走,也就是把感知、推理、执行放进一个连续流程里。你再回头看这些 OCR、文档、视觉 benchmark,就很容易理解为什么它们会跟 agentic coding 一起被放在同一轮发布里。

这不是堆功能。

这是在补齐一个闭环。

但别把它神化

我挺烦现在很多模型文章一上来就是全方位领先,遥遥领先,全面碾压。那种文章看两段就没劲了,因为你知道作者根本没认真看表。

Qwen3.6-Plus 这张表,根本不是全胜。

比如 MMMU 它是 86.0,没有拿到表里的最高分。SimpleVQA 它是 67.3,也不是最强。SkillsBench Avg5 它是 45.7,还是没把这张表直接刷穿。NL2Repo 它是 37.9,同样不是第一。

这反而让我更愿意信它一点。

因为一个真实往产品走的模型,本来就不太可能在所有 benchmark 上都齐刷刷封神。它更常见的状态是,在自己最想打的那几条线上,出现非常明确的拉升,然后在一些传统项目或者更偏单点能力的任务上,还保留着边界。

Qwen3.6-Plus 现在给我的感觉就是这样。

它不是一个什么都第一的模型。

它是一个方向已经非常清楚的模型。

所以这张表,对普通开发者到底有啥用

如果你现在做的是仓库级 coding agent,浏览器 agent,终端自动化,长文档工作流,文档解析,截图到代码,或者那种要一边看材料一边调工具一边继续干的复杂流程,那 Qwen3.6-Plus 这次是真的值得认真测一轮。

因为它的强,不只是写代码更顺了。

而是它更像一个会持续推进流程的系统。

你把一堆需求文档、设计稿、报错日志、截图、代码仓库一起甩给它,它未必每次都完美,但它现在明显比很多传统模型更像那个愿意把活接过去,然后继续往下跑的人。

反过来说,如果你的使用场景还是短对话、简单问答、普通总结、轻量写作,那这轮 benchmark 的很多提升,你大概率感知不到。不是它没提升,而是这些 benchmark 本来就不是为了那种场景设计的。

最后一句判断

所以我最后的结论其实很简单。

Qwen3.6-Plus 最值得看的,不是它有没有把每一张榜都打成第一。

真正值得看的是,它把 benchmark 的叙事,从「模型会不会答题」往「模型能不能干活」推了一大步。

这一步,我觉得挺关键。

因为从这个时间点开始,很多模型之间的差别,可能不再主要体现在你问它一个问题,它答得像不像老师。差别会越来越体现在,你给它一个模糊目标,它能不能自己往前走,能走多远,中间要不要你一直拽着。

Qwen3.6-Plus 现在给我的感受就是,它正在很认真地回答这个问题。

而且,已经答得有点东西了。

参考资料

Q-Chat Team

Q-Chat Team

Qwen3.6-Plus benchmark,这次最值得看的,不是聊天分数,而是它能不能把活干下去 | Qwen 博客