千问3.7 Max API：如何通过 Model Studio 调用 Qwen 3.7 Max

千问3.7 Max API：如何调用 Qwen 3.7 Max

千问3.7 Max API 已经有官方材料可参考。如果你搜索的是 qwen-3.7 API、qwen3.7 API 或 qwen 3.7 API，第一件事是确认模型名。

在 Model Studio compatible-mode 示例里，官方使用的是：

qwen3.7-max

Qwen Cloud 模型卡还列出了一个日期快照：

qwen3.7-max-2026-05-20

如果希望走当前稳定路线，优先用 qwen3.7-max。如果你的供应商暴露了日期版本，并且你需要更强复现性，可以使用日期快照。

先体验模型可以打开千问3.7 Max 模型页。

官方接入路径

一方接入路径是 Alibaba Cloud Model Studio。Qwen3.7-Max 官方发布材料展示了 OpenAI-compatible chat completions、responses API，以及 Anthropic-compatible 接口，方便接入 agent 工具链。

常见 compatible-mode base URL：

地区	Base URL
北京	`https://dashscope.aliyuncs.com/compatible-mode/v1`
新加坡	`https://dashscope-intl.aliyuncs.com/compatible-mode/v1`
美国 Virginia	`https://dashscope-us.aliyuncs.com/compatible-mode/v1`

Qwen Cloud 模型卡里的 DashScope SDK 示例还使用：

https://dashscope-intl.aliyuncs.com/api/v1

如果你的现有应用已经接了 OpenAI SDK，compatible-mode endpoint 通常是迁移成本最低的方式。

最小 Python 示例

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url=os.environ.get(
        "DASHSCOPE_BASE_URL",
        "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
    ),
)

completion = client.chat.completions.create(
    model="qwen3.7-max",
    messages=[
        {
            "role": "user",
            "content": "写一个 Python 函数，合并两个有序链表。",
        }
    ],
    extra_body={
        "enable_thinking": True,
    },
    stream=True,
)

for chunk in completion:
    if chunk.choices:
        delta = chunk.choices[0].delta
        if getattr(delta, "content", None):
            print(delta.content, end="")

这就是最适合已有 OpenAI SDK 项目的 qwen 3.7 API 接入方式。

Thinking mode 和 preserve_thinking

Qwen3.7-Max 的定位是 agentic tasks，所以 thinking mode 很重要。官方示例通过下面的 extra_body 开启：

extra_body={"enable_thinking": True}

发布材料还提到 preserve_thinking，它可以保留前序轮次消息里的思考内容。对于长程 agent 任务，这有助于模型记住之前的推理、工具结果和下一步策略。

但它不是所有场景都该开。保留更多 thinking 内容会增加 token 使用量。短对话可以关闭；多步 qwen3.7 编程 agent 可以单独测试。

Claude Code 和其他 agent harness

Qwen API 还支持 Anthropic-compatible 路线。官方示例里 Claude Code 可以这样配置：

export ANTHROPIC_MODEL="qwen3.7-max"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.7-max"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>

这点很关键，因为 Qwen 3.7 Max 的目标并不只是直接聊天，而是进入 coding assistant 和 agent scaffold。

价格和上下文

Qwen Cloud 模型卡列出的 Qwen3.7-Max 信息包括：

字段	值
上下文	1M tokens
最大输入	991.80K tokens
最大输出	65.53K tokens
输入价格	$2.50 / 1M tokens
输出价格	$7.50 / 1M tokens
RPM	600
TPM	1M

生产上线前仍然要以你的实际供应商控制台为准。不同供应商可能单独调整价格、额度和地区可用性。

集成建议

先在 staging 环境用 qwen3.7-max 测试。
编程和 agent 场景优先使用 streaming。
显式设置 max_tokens，不要默认开到最大输出。
分开记录 tool call 和最终回答。
只在可能受益的工作流上测试 enable_thinking 和 preserve_thinking。
切流量前，把 qwen-3.7 和 Qwen3.6-Plus 放到同一组 prompt 里对比。

这篇指南不保证什么

这篇文章说明的是公开 API 形态和优先测试的集成决策，不保证每个地区、额度、模型快照或价格长期固定。Hosted 模型 API 变化很快，所以生产代码应该把 provider 配置放在 prompt 层之外，并在上线前重新核对控制台。

安全迁移时，最好把三件事分开：

用户界面里看到的展示名称；
后端实际发给 provider 的 model ID；
当地区、额度或功能变化时可回退的备用模型。

这个拆分对 qwen3.7 尤其重要。公开资料里同时出现了模型名、日期快照、compatible-mode endpoint 和 agent harness 示例，它们相关，但不能互换。应该固定你实际测过的路由，记录 provider 返回结果，并在自己的工作负载通过前保留回滚路径。

结论

千问3.7 Max API 已经不是“上线前观察清单”。官方材料给出了模型 alias、区域 compatible-mode endpoint、thinking mode、preserve_thinking 和 agent harness 示例。

生产环境里，qwen-3.7、qwen3.7 和 qwen 3.7 API 接入仍然要按 hosted 模型迁移处理：能 pin model 就 pin，验证成本，测试长上下文行为，并保留 fallback route。