Qwen3.5-Flash — Hosted 的速度路线

Qwen3.5-Flash 是 Qwen 3.5 系列中响应最快的模型,适合快速提问和轻量工作流。免费试用。

直接开聊
Qwen3.5-Flash
在线

Qwen3.5-Flash 已经选好

这个页面默认就用 Qwen3.5-Flash。Lowest-latency Qwen 3.5 option for quick questions, lightweight workflows, and retries.

先选模型,再决定要不要联网搜索或打开 Thinking,然后直接用真实问题开聊。
速度优先
低成本

可以直接试这些问题

可以先在浏览器里试。Flash 的公开参考基线就是 Qwen3.5-35B-A3B。

优化方向
速度
模型类型
Hosted
上下文
1M 默认
基础模型
35B-A3B
概览

为低延迟场景而生

Qwen3.5-Flash 是基于 Qwen3.5-35B-A3B 的 hosted 模型。它保留了这条 MoE 基线的速度优势,同时加上更大的默认上下文和托管工具层。

1M 默认上下文

Flash 默认提供 1M 上下文窗口。

基础模型

Flash 的分数参考基线是 Qwen3.5-35B-A3B,这也是这条 hosted 线路最接近的公开模型。

Hosted 工具层

除了模型本体,Flash 还带了托管调用、内建工具和生产可用的服务层。

Qwen3.5-Flash Benchmark

Qwen3.5-Flash 与相近模型的 benchmark 对比。

Qwen3.5-9B

Light dense model for quick prompts and lightweight coding.

更新于 2026-04-02
MMLU-Pro
82.5
GPQA / GPQA-family
81.7
LiveCodeBench v6
65.6

Qwen3.5-35B-A3B

Compact MoE model, also the base model behind Qwen3.5-Flash.

更新于 2026-04-02
MMLU-Pro
85.3
GPQA / GPQA-family
84.2
LiveCodeBench v6
74.6

Qwen3.5-Flash

Hosted

Hosted version built on Qwen3.5-35B-A3B with additional tooling and a 1M context window.

Scores reference the Qwen3.5-35B-A3B base model.

更新于 2026-04-02
MMLU-Pro
85.3
GPQA / GPQA-family
84.2
LiveCodeBench v6
74.6

分数来自公开模型卡和 qwen.ai 发布页。Hosted 模型标注了对应的开源基线。

更新于 2026-04-02
适用场景

Qwen3.5-Flash 最擅长什么

当响应时间比极限推理深度更重要时,Flash 是更合适的那条路。

实时对话

驱动即时响应的聊天机器人和客服界面。

快速问答

以最低延迟回答简单事实性问题。

批量处理

快速处理大量文本的分类、提取或标注。

提示迭代

在大模型上正式运行前快速测试和优化提示。

自动补全

以最小延迟驱动行内建议和代码补全。

高并发场景

适合客服、路由、实时问答这类更看重低延迟反馈的场景。

常见问题

Qwen3.5-Flash 常见问题

关于 Flash 模型的常见问题。

1

Flash 的分数基于哪条模型?

Flash 的公开参考基线是 Qwen3.5-35B-A3B。在这条基线之上,hosted 版本再加上低延迟服务层、工具能力和 1M 上下文。

2

Flash 适合生产环境吗?

适合,前提是你的核心目标是低延迟 hosted 调用。如果你更在意深推理,或者更想要完全公开的开源基线,就该看 27B、122B-A10B、397B-A17B,或者直接看它对应的 35B-A3B。

3

Flash 和 Qwen3.5-9B 相比如何?

它们不是同一条路线。Flash 是 hosted 的速度优先方案;9B 是最小的公开 dense 检查点。想要低延迟 hosted 体验就选 Flash,想看小型开源发布版就选 9B。

4

Flash 可以自托管吗?

不能按完全相同的 hosted 产品形态自托管。如果你想找最接近的公开自托管参考,应该看 Qwen3.5-35B-A3B。

5

Flash 的上下文窗口是多大?

默认 1M token,比开源 Qwen 3.5 模型的 262K 原生上下文更大。

6

Flash 在这里可以免费用吗?

可以。你可以在本站免费试用 Qwen3.5-Flash,它是通过 API 访问的 hosted 模型。

7

Flash 和 Plus 该选哪个?

追求速度选 Flash,追求推理质量选 Plus。Plus 更强但延迟略高。

8

Flash 支持工具调用吗?

支持。Flash 是带内建工具能力的 hosted 模型,适合低延迟优先的轻量工具流程。