
千问3.7 Max API:如何调用 Qwen 3.7 Max
千问3.7 Max API 已经有官方材料可参考。如果你搜索的是 qwen-3.7 API、qwen3.7 API 或 qwen 3.7 API,第一件事是确认模型名。
在 Model Studio compatible-mode 示例里,官方使用的是:
qwen3.7-maxQwen Cloud 模型卡还列出了一个日期快照:
qwen3.7-max-2026-05-20如果希望走当前稳定路线,优先用 qwen3.7-max。如果你的供应商暴露了日期版本,并且你需要更强复现性,可以使用日期快照。
先体验模型可以打开 千问3.7 Max 模型页。
官方接入路径
一方接入路径是 Alibaba Cloud Model Studio。Qwen3.7-Max 官方发布材料展示了 OpenAI-compatible chat completions、responses API,以及 Anthropic-compatible 接口,方便接入 agent 工具链。
常见 compatible-mode base URL:
| 地区 | Base URL |
|---|---|
| 北京 | https://dashscope.aliyuncs.com/compatible-mode/v1 |
| 新加坡 | https://dashscope-intl.aliyuncs.com/compatible-mode/v1 |
| 美国 Virginia | https://dashscope-us.aliyuncs.com/compatible-mode/v1 |
Qwen Cloud 模型卡里的 DashScope SDK 示例还使用:
https://dashscope-intl.aliyuncs.com/api/v1如果你的现有应用已经接了 OpenAI SDK,compatible-mode endpoint 通常是迁移成本最低的方式。
最小 Python 示例
from openai import OpenAI
import os
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
base_url=os.environ.get(
"DASHSCOPE_BASE_URL",
"https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
),
)
completion = client.chat.completions.create(
model="qwen3.7-max",
messages=[
{
"role": "user",
"content": "写一个 Python 函数,合并两个有序链表。",
}
],
extra_body={
"enable_thinking": True,
},
stream=True,
)
for chunk in completion:
if chunk.choices:
delta = chunk.choices[0].delta
if getattr(delta, "content", None):
print(delta.content, end="")这就是最适合已有 OpenAI SDK 项目的 qwen 3.7 API 接入方式。
Thinking mode 和 preserve_thinking
Qwen3.7-Max 的定位是 agentic tasks,所以 thinking mode 很重要。官方示例通过下面的 extra_body 开启:
extra_body={"enable_thinking": True}发布材料还提到 preserve_thinking,它可以保留前序轮次消息里的思考内容。对于长程 agent 任务,这有助于模型记住之前的推理、工具结果和下一步策略。
但它不是所有场景都该开。保留更多 thinking 内容会增加 token 使用量。短对话可以关闭;多步 qwen3.7 编程 agent 可以单独测试。
Claude Code 和其他 agent harness
Qwen API 还支持 Anthropic-compatible 路线。官方示例里 Claude Code 可以这样配置:
export ANTHROPIC_MODEL="qwen3.7-max"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.7-max"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>这点很关键,因为 Qwen 3.7 Max 的目标并不只是直接聊天,而是进入 coding assistant 和 agent scaffold。
价格和上下文
Qwen Cloud 模型卡列出的 Qwen3.7-Max 信息包括:
| 字段 | 值 |
|---|---|
| 上下文 | 1M tokens |
| 最大输入 | 991.80K tokens |
| 最大输出 | 65.53K tokens |
| 输入价格 | $2.50 / 1M tokens |
| 输出价格 | $7.50 / 1M tokens |
| RPM | 600 |
| TPM | 1M |
生产上线前仍然要以你的实际供应商控制台为准。不同供应商可能单独调整价格、额度和地区可用性。
集成建议
- 先在 staging 环境用
qwen3.7-max测试。 - 编程和 agent 场景优先使用 streaming。
- 显式设置
max_tokens,不要默认开到最大输出。 - 分开记录 tool call 和最终回答。
- 只在可能受益的工作流上测试
enable_thinking和preserve_thinking。 - 切流量前,把 qwen-3.7 和 Qwen3.6-Plus 放到同一组 prompt 里对比。
结论
千问3.7 Max API 已经不是“上线前观察清单”。官方材料给出了模型 alias、区域 compatible-mode endpoint、thinking mode、preserve_thinking 和 agent harness 示例。
生产环境里,qwen-3.7、qwen3.7 和 qwen 3.7 API 接入仍然要按 hosted 模型迁移处理:能 pin model 就 pin,验证成本,测试长上下文行为,并保留 fallback route。
相关阅读:千问3.7 Max benchmark 和 千问3.7 Max 上下文窗口。

