结构化输出
可靠地生成 JSON、XML 和符合 schema 的数据。
Qwen3.5-35B-A3B 是紧凑型 MoE 模型,每步仅激活 3B 参数,擅长推理、结构化输出和工具调用。免费体验。
这个页面默认就用 Qwen3.5-35B-A3B。MoE option for reasoning-heavy chats, structured work, and deeper tool use.
可以直接试这些问题
可以先在浏览器里试。Qwen3.5-Flash 的公开参考基线就是这条 35B-A3B。
Qwen3.5-35B-A3B 是 Qwen 3.5 家族中最小的 MoE 模型。MoE 架构将每个 token 路由到少量专家网络,在推理速度快的同时利用更大的知识库。相比 Qwen3.5-27B(Dense,27B 全激活),本模型每 token 仅激活 3B 参数,但在推理基准上常常持平甚至超过 27B。
每 token 仅 3B 参数激活——35B 总量下依然快速推理。
擅长结构化输出、多步逻辑和工具调用场景。
每 token 计算成本低于同等能力的 Dense 模型。
Qwen3.5-35B-A3B 与相近模型的 benchmark 对比。
Balanced dense model with better reasoning and coding depth.
Compact MoE model, also the base model behind Qwen3.5-Flash.
Hosted version built on Qwen3.5-35B-A3B with additional tooling and a 1M context window.
Scores reference the Qwen3.5-35B-A3B base model.
分数来自公开模型卡和 qwen.ai 发布页。Hosted 模型标注了对应的开源基线。
更新于 2026-04-02当你需要比 Dense 模型更深的推理,又不需要大型 MoE 的资源开销时。
可靠地生成 JSON、XML 和符合 schema 的数据。
思维链任务、数学问题和逻辑推演。
函数调用、API 编排和智能体工作流。
理解复杂代码库,生成结构化重构方案。
将技术论文和报告浓缩为可执行的见解。
本地部署所需显存低于更大的 MoE 或 Dense 模型。
关于紧凑型 MoE 模型的常见问题。
35B 是所有专家的总参数量。A3B 表示推理时每个 token 仅激活 30 亿参数,比全 35B Dense 模型快得多。
27B 是全密集——每个 token 使用全部参数。35B-A3B 通过路由到专家来利用更广的知识库,激活参数更少但推理常常更好。
可以,但实际资源占用会随着精度、推理框架和上下文长度变化。模型卡里主要给的是公开部署方式;社区量化格式可能还能进一步压缩占用。
如果 35B-A3B 在非常复杂的多步任务或长篇生成上吃力,可以升级到 Qwen3.5-122B-A10B 或 Qwen3.5-397B-A17B。
虽然总参数 35B,但每个 token 只激活 3B。量化版本在 8-12 GB 显存上即可运行。
Flash 是基于 35B-A3B 的 hosted 版本,额外加了生产工具和 1M 上下文窗口。35B-A3B 是你可以下载自托管的开源权重。
推理密集型对话、结构化输出,以及想要 MoE 级别推理但硬件有限的场景。
Qwen3.5-35B-A3B 支持 262,144 原生 token,在合适的推理栈里还能进一步扩展。