Qwen3.5-35B-A3B — 紧凑型 MoE 深度推理

Qwen3.5-35B-A3B 是紧凑型 MoE 模型,每步仅激活 3B 参数,擅长推理、结构化输出和工具调用。免费体验。

直接开聊
Qwen3.5-35B-A3B
在线
Thinking

Qwen3.5-35B-A3B 已经选好

这个页面默认就用 Qwen3.5-35B-A3B。MoE option for reasoning-heavy chats, structured work, and deeper tool use.

先选模型,再决定要不要联网搜索或打开 Thinking,然后直接用真实问题开聊。
MoE
推理

可以直接试这些问题

可以先在浏览器里试。Qwen3.5-Flash 的公开参考基线就是这条 35B-A3B。

总参数
35B
激活参数
3B
上下文
262K 原生
许可证
Apache 2.0
概览

为什么 MoE 架构重要

Qwen3.5-35B-A3B 是 Qwen 3.5 家族中最小的 MoE 模型。MoE 架构将每个 token 路由到少量专家网络,在推理速度快的同时利用更大的知识库。相比 Qwen3.5-27B(Dense,27B 全激活),本模型每 token 仅激活 3B 参数,但在推理基准上常常持平甚至超过 27B。

专家路由

每 token 仅 3B 参数激活——35B 总量下依然快速推理。

推理密集型

擅长结构化输出、多步逻辑和工具调用场景。

高性价比

每 token 计算成本低于同等能力的 Dense 模型。

Qwen3.5-35B-A3B Benchmark

Qwen3.5-35B-A3B 与相近模型的 benchmark 对比。

Qwen3.5-27B

Balanced dense model with better reasoning and coding depth.

更新于 2026-04-02
MMLU-Pro
86.1
GPQA / GPQA-family
85.5
LiveCodeBench v6
80.7

Qwen3.5-35B-A3B

Compact MoE model, also the base model behind Qwen3.5-Flash.

更新于 2026-04-02
MMLU-Pro
85.3
GPQA / GPQA-family
84.2
LiveCodeBench v6
74.6

Qwen3.5-Flash

Hosted

Hosted version built on Qwen3.5-35B-A3B with additional tooling and a 1M context window.

Scores reference the Qwen3.5-35B-A3B base model.

更新于 2026-04-02
MMLU-Pro
85.3
GPQA / GPQA-family
84.2
LiveCodeBench v6
74.6

分数来自公开模型卡和 qwen.ai 发布页。Hosted 模型标注了对应的开源基线。

更新于 2026-04-02
适用场景

Qwen3.5-35B-A3B 最擅长什么

当你需要比 Dense 模型更深的推理,又不需要大型 MoE 的资源开销时。

结构化输出

可靠地生成 JSON、XML 和符合 schema 的数据。

多步推理

思维链任务、数学问题和逻辑推演。

工具调用与 Agent

函数调用、API 编排和智能体工作流。

代码分析

理解复杂代码库,生成结构化重构方案。

研究摘要

将技术论文和报告浓缩为可执行的见解。

高效部署

本地部署所需显存低于更大的 MoE 或 Dense 模型。

常见问题

Qwen3.5-35B-A3B 常见问题

关于紧凑型 MoE 模型的常见问题。

1

35B-A3B 是什么意思?

35B 是所有专家的总参数量。A3B 表示推理时每个 token 仅激活 30 亿参数,比全 35B Dense 模型快得多。

2

和 Qwen3.5-27B 相比如何?

27B 是全密集——每个 token 使用全部参数。35B-A3B 通过路由到专家来利用更广的知识库,激活参数更少但推理常常更好。

3

可以本地运行吗?

可以,但实际资源占用会随着精度、推理框架和上下文长度变化。模型卡里主要给的是公开部署方式;社区量化格式可能还能进一步压缩占用。

4

什么时候该用更大的 MoE 模型?

如果 35B-A3B 在非常复杂的多步任务或长篇生成上吃力,可以升级到 Qwen3.5-122B-A10B 或 Qwen3.5-397B-A17B。

5

35B-A3B 需要多少显存?

虽然总参数 35B,但每个 token 只激活 3B。量化版本在 8-12 GB 显存上即可运行。

6

35B-A3B 和 Qwen3.5-Flash 是一回事吗?

Flash 是基于 35B-A3B 的 hosted 版本,额外加了生产工具和 1M 上下文窗口。35B-A3B 是你可以下载自托管的开源权重。

7

35B-A3B 最适合什么任务?

推理密集型对话、结构化输出,以及想要 MoE 级别推理但硬件有限的场景。

8

35B-A3B 支持多长上下文?

Qwen3.5-35B-A3B 支持 262,144 原生 token,在合适的推理栈里还能进一步扩展。