博客文章

千问3.7 Max API:如何通过 Model Studio 调用 Qwen 3.7 Max

千问3.7 Max API 接入说明,覆盖 qwen-3.7、qwen3.7、qwen 3.7 API 的模型 ID、DashScope endpoint、thinking mode 和 preserve_thinking。

千问3.7 Max API:如何通过 Model Studio 调用 Qwen 3.7 Max

千问3.7 Max API:如何调用 Qwen 3.7 Max

千问3.7 Max API 已经有官方材料可参考。如果你搜索的是 qwen-3.7 APIqwen3.7 APIqwen 3.7 API,第一件事是确认模型名。

在 Model Studio compatible-mode 示例里,官方使用的是:

qwen3.7-max

Qwen Cloud 模型卡还列出了一个日期快照:

qwen3.7-max-2026-05-20

如果希望走当前稳定路线,优先用 qwen3.7-max。如果你的供应商暴露了日期版本,并且你需要更强复现性,可以使用日期快照。

先体验模型可以打开 千问3.7 Max 模型页

官方接入路径

一方接入路径是 Alibaba Cloud Model Studio。Qwen3.7-Max 官方发布材料展示了 OpenAI-compatible chat completions、responses API,以及 Anthropic-compatible 接口,方便接入 agent 工具链。

常见 compatible-mode base URL:

地区Base URL
北京https://dashscope.aliyuncs.com/compatible-mode/v1
新加坡https://dashscope-intl.aliyuncs.com/compatible-mode/v1
美国 Virginiahttps://dashscope-us.aliyuncs.com/compatible-mode/v1

Qwen Cloud 模型卡里的 DashScope SDK 示例还使用:

https://dashscope-intl.aliyuncs.com/api/v1

如果你的现有应用已经接了 OpenAI SDK,compatible-mode endpoint 通常是迁移成本最低的方式。

最小 Python 示例

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url=os.environ.get(
        "DASHSCOPE_BASE_URL",
        "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
    ),
)

completion = client.chat.completions.create(
    model="qwen3.7-max",
    messages=[
        {
            "role": "user",
            "content": "写一个 Python 函数,合并两个有序链表。",
        }
    ],
    extra_body={
        "enable_thinking": True,
    },
    stream=True,
)

for chunk in completion:
    if chunk.choices:
        delta = chunk.choices[0].delta
        if getattr(delta, "content", None):
            print(delta.content, end="")

这就是最适合已有 OpenAI SDK 项目的 qwen 3.7 API 接入方式。

Thinking mode 和 preserve_thinking

Qwen3.7-Max 的定位是 agentic tasks,所以 thinking mode 很重要。官方示例通过下面的 extra_body 开启:

extra_body={"enable_thinking": True}

发布材料还提到 preserve_thinking,它可以保留前序轮次消息里的思考内容。对于长程 agent 任务,这有助于模型记住之前的推理、工具结果和下一步策略。

但它不是所有场景都该开。保留更多 thinking 内容会增加 token 使用量。短对话可以关闭;多步 qwen3.7 编程 agent 可以单独测试。

Claude Code 和其他 agent harness

Qwen API 还支持 Anthropic-compatible 路线。官方示例里 Claude Code 可以这样配置:

export ANTHROPIC_MODEL="qwen3.7-max"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.7-max"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>

这点很关键,因为 Qwen 3.7 Max 的目标并不只是直接聊天,而是进入 coding assistant 和 agent scaffold。

价格和上下文

Qwen Cloud 模型卡列出的 Qwen3.7-Max 信息包括:

字段
上下文1M tokens
最大输入991.80K tokens
最大输出65.53K tokens
输入价格$2.50 / 1M tokens
输出价格$7.50 / 1M tokens
RPM600
TPM1M

生产上线前仍然要以你的实际供应商控制台为准。不同供应商可能单独调整价格、额度和地区可用性。

集成建议

  1. 先在 staging 环境用 qwen3.7-max 测试。
  2. 编程和 agent 场景优先使用 streaming。
  3. 显式设置 max_tokens,不要默认开到最大输出。
  4. 分开记录 tool call 和最终回答。
  5. 只在可能受益的工作流上测试 enable_thinkingpreserve_thinking
  6. 切流量前,把 qwen-3.7 和 Qwen3.6-Plus 放到同一组 prompt 里对比。

结论

千问3.7 Max API 已经不是“上线前观察清单”。官方材料给出了模型 alias、区域 compatible-mode endpoint、thinking mode、preserve_thinking 和 agent harness 示例。

生产环境里,qwen-3.7、qwen3.7 和 qwen 3.7 API 接入仍然要按 hosted 模型迁移处理:能 pin model 就 pin,验证成本,测试长上下文行为,并保留 fallback route。

相关阅读:千问3.7 Max benchmark千问3.7 Max 上下文窗口

参考资料

Q-Chat Team

Q-Chat Team

千问3.7 Max API:如何通过 Model Studio 调用 Qwen 3.7 Max