实时对话
驱动即时响应的聊天机器人和客服界面。
Qwen3.5-Flash 是 Qwen 3.5 系列中响应最快的模型,适合快速提问和轻量工作流。免费试用。
这个页面默认就用 Qwen3.5-Flash。Lowest-latency Qwen 3.5 option for quick questions, lightweight workflows, and retries.
可以直接试这些问题
可以先在浏览器里试。Flash 的公开参考基线就是 Qwen3.5-35B-A3B。
Qwen3.5-Flash 是基于 Qwen3.5-35B-A3B 的 hosted 模型。它保留了这条 MoE 基线的速度优势,同时加上更大的默认上下文和托管工具层。
Flash 默认提供 1M 上下文窗口。
Flash 的分数参考基线是 Qwen3.5-35B-A3B,这也是这条 hosted 线路最接近的公开模型。
除了模型本体,Flash 还带了托管调用、内建工具和生产可用的服务层。
Qwen3.5-Flash 与相近模型的 benchmark 对比。
Light dense model for quick prompts and lightweight coding.
Compact MoE model, also the base model behind Qwen3.5-Flash.
Hosted version built on Qwen3.5-35B-A3B with additional tooling and a 1M context window.
Scores reference the Qwen3.5-35B-A3B base model.
分数来自公开模型卡和 qwen.ai 发布页。Hosted 模型标注了对应的开源基线。
更新于 2026-04-02当响应时间比极限推理深度更重要时,Flash 是更合适的那条路。
驱动即时响应的聊天机器人和客服界面。
以最低延迟回答简单事实性问题。
快速处理大量文本的分类、提取或标注。
在大模型上正式运行前快速测试和优化提示。
以最小延迟驱动行内建议和代码补全。
适合客服、路由、实时问答这类更看重低延迟反馈的场景。
关于 Flash 模型的常见问题。
Flash 的公开参考基线是 Qwen3.5-35B-A3B。在这条基线之上,hosted 版本再加上低延迟服务层、工具能力和 1M 上下文。
适合,前提是你的核心目标是低延迟 hosted 调用。如果你更在意深推理,或者更想要完全公开的开源基线,就该看 27B、122B-A10B、397B-A17B,或者直接看它对应的 35B-A3B。
它们不是同一条路线。Flash 是 hosted 的速度优先方案;9B 是最小的公开 dense 检查点。想要低延迟 hosted 体验就选 Flash,想看小型开源发布版就选 9B。
不能按完全相同的 hosted 产品形态自托管。如果你想找最接近的公开自托管参考,应该看 Qwen3.5-35B-A3B。
默认 1M token,比开源 Qwen 3.5 模型的 262K 原生上下文更大。
可以。你可以在本站免费试用 Qwen3.5-Flash,它是通过 API 访问的 hosted 模型。
追求速度选 Flash,追求推理质量选 Plus。Plus 更强但延迟略高。
支持。Flash 是带内建工具能力的 hosted 模型,适合低延迟优先的轻量工具流程。