跳转到主要内容
Home / 前沿动态 / 2026.06.01

Qwen3.7-Plus:多模态 Agent 模型,阿里把「看屏幕」做成了基准强项

2026 年 6 月 1 日,阿里通义千问发布 Qwen3.7-Plus,定位多模态 Agent 模型。官方基准显示 ScreenSpot Pro 79.0、AndroidWorld 81.0、OSWorld-Verified 73.3,在 GUI 操作上逼近 GPT-5.4。通过阿里云百炼提供服务,兼容 OpenAI API 规范。本文数据全部来自 qwen.ai 官方博客。

2026 年 6 月 1 日,阿里通义千问团队在 qwen.ai/blog?id=qwen3.7-plus 发布 Qwen3.7-Plus

官方给它的定位很直接:Multimodal Agent——多模态智能体模型。不是「能看图的聊天模型」,是「能看屏幕、能操作 GUI、能写代码、能调工具」的 Agent 基座。

在 Claude Opus 4.8 发布 4 天后、Google I/O 2026 发布 Gemini 3.5 Flash 13 天后,阿里选这个时间点推 Qwen3.7-Plus,目标很明确:抢占「多模态 Agent」这个 2026 年中段最热的赛道。

官方公布的核心定位

以下内容全部来自 qwen.ai 官方博客原文:

Today we introduce Qwen3.7-Plus — a multimodal agent model that unifies vision and language into a single, versatile agent foundation.

官方列出的四个核心能力:

能力 官方描述
多模态交互混合 Agent 统一 GUI & CLI 操作,覆盖视觉与文本任务
全能编码 Agent 与生产力助手 全模态输入,从前端原型到复杂软件工程
Visual Agent 感知、推理、grounding、搜索增强 QA
跨框架泛化 在 Claude Code、OpenClaw、Qwen Code 等框架中表现一致

关键信息:Qwen3.7-Plus 明确支持在 Claude Code 框架里跑。 这是个有意思的细节——阿里官方博客主动提到自家模型可以跑在竞品(Anthropic)的 Agent 框架里,说明他们对跨框架兼容性有信心,也说明 Agent 框架层正在和模型层解耦。

可用渠道与 API

渠道 状态
阿里云百炼(Model Studio) 已上线
API 协议 兼容 OpenAI Chat Completions 和 Responses API
区域端点 北京 / 新加坡 / 美国(弗吉尼亚)
模型名 qwen3.7-plus
输入模态 文本 + 图像 + 视频
特殊参数 enable_thinkingpreserve_thinking(Agent 任务推荐)

官方给出的 Python 调用示例直接用 openai SDK,base_url 指向阿里云百炼。这意味着已经在用 OpenAI SDK 的团队,改两行配置就能切过来。

preserve_thinking 是个值得注意的参数——它会保留之前所有轮次的思考内容。官方明确说「recommended for agentic tasks」,说明 Qwen3.7-Plus 的思考链在多轮 Agent 工作流里有实际价值,不是装饰。

文本基准:官方表格里的硬数字

官方博客贴出了完整的文本基准对比表,对比对象包括 Opus-4.6 Max、K2.6 Thinking、GLM-5.1 Thinking、DeepSeek-V4-Pro Max、Qwen3.6-Plus 和 Qwen3.7-Plus。

以下是 Qwen3.7-Plus 在关键基准上的官方得分:

编码 Agent

基准 Qwen3.7-Plus Qwen3.6-Plus Opus-4.6 Max DeepSeek-V4-Pro Max
Terminal Bench 2.0-Terminus 70.3 61.6 65.4 67.9
SWE-Verified 77.7 78.8 80.8 80.6
SWE-Pro 57.6 56.6 57.3 59.0
SWE-Multilingual 75.8 73.8 77.5 76.2
SciCode 51.3 41.4 51.9
QwenWebDev 1536 1500 1617 1570
QwenSVG 1588 1432 1541 1506

关键观察: Qwen3.7-Plus 在 Terminal Bench 2.0 上拿到 70.3,比上一代 Qwen3.6-Plus 的 61.6 提升明显,也超过了 Opus-4.6 Max(65.4)和 DeepSeek-V4-Pro Max(67.9)。但 SWE-Verified(77.7)反而比 Qwen3.6-Plus(78.8)和 Opus-4.6 Max(80.8)略低。

这说明 Qwen3.7-Plus 的编码能力不是全面碾压,而是在终端任务上强、在 SWE-bench 上略弱。 官方没有回避这个对比,直接把所有数字贴出来了。

通用 Agent 与推理

基准 Qwen3.7-Plus Qwen3.6-Plus Opus-4.6 Max
Qwenclaw 61.8 57.2 65.5
CoWorkBench 65.1 64.5 68.2
MCP-Mark 58.7 48.2 56.7
Deep-Planning 62.3 40.9 58.9
QwenWorldBench 62.1 47.6 56.1
GPQA Diamond 90.3 90.4 91.3
LiveCodeBench 89.6 87.1 88.8
HMMT 2026 Feb 92.9 87.8 96.2

Deep-Planning 从 40.9 跳到 62.3,QwenWorldBench 从 47.6 跳到 62.1,MCP-Mark 从 48.2 跳到 58.7。 这三个基准的提升幅度都在 10 分以上,是 Qwen3.7-Plus 相比 Qwen3.6-Plus 最显著的进步区域。

官方原文解释:

Qwen3.7-Plus demonstrates robust tool-use and planning capabilities across MCP-Mark, Deep-Planning, and Kernel Bench L3, showing particular strength in complex multi-step planning and GPU kernel optimization.

多模态基准:这才是 Qwen3.7-Plus 的主战场

官方博客用更大篇幅讲多模态。对比对象是 GPT-5.4 (xhigh)、Opus-4.6 Max、Gemini-3.1 Pro、Qwen3.6-Plus。

视觉 Agent 与编码

基准 Qwen3.7-Plus Qwen3.6-Plus GPT-5.4 (xhigh) Opus-4.6 Max Gemini-3.1 Pro
ScreenSpot Pro 79.0 68.2 67.4 49.5 68.1
OSWorld-Verified 73.3 62.5 75.0 72.7
AndroidWorld 81.0 67.2 62.0 70.7
QwenVision2Code 1772.0 1522.0 1884.0 1518.0 1632.0
ClawEval-MM 55.7 49.1 54.4 54.7 45.7

这是 Qwen3.7-Plus 最能打的地方。

  • ScreenSpot Pro 79.0:超过 GPT-5.4(67.4)、Opus-4.6 Max(49.5)、Gemini-3.1 Pro(68.1)
  • AndroidWorld 81.0:超过 Opus-4.6 Max(62.0)和 Gemini-3.1 Pro(70.7),GPT-5.4 在此项无数据
  • OSWorld-Verified 73.3:仅次于 GPT-5.4(75.0),超过 Opus-4.6 Max(72.7)

ScreenSpot Pro 测的是 GUI 元素定位能力,AndroidWorld 测的是安卓应用端到端操作,OSWorld-Verified 测的是真实操作系统任务完成度。这三个基准共同回答一个问题:模型能不能「看懂屏幕并操作界面」。

Qwen3.7-Plus 在这三个基准上同时拿到高分,说明阿里的多模态 Agent 路线确实跑通了。

多模态推理与视觉理解

基准 Qwen3.7-Plus Qwen3.6-Plus GPT-5.4 (xhigh)
BabyVision 70.4 / 64.7 37.4 53.1
MathVision 90.3 88.0 91.0
CharXiv(RQ) 85.9 / 84.4 81.5 84.5
RealWorldQA 86.9 85.4 83.8
CountQA 77.0 71.7 58.4
OCR-Bench-V2(EN) 70.7 67.0 59.1
OCR-Bench-V2(ZH) 67.1 63.6 57.7

BabyVision 从 37.4 跳到 70.4,几乎翻倍。 官方原文:

its significant improvement on BabyVision over Qwen3.6-Plus suggests stronger generalization on tasks that are closer to early human visual cognition and spatial reasoning.

OCR-Bench-V2 中英文双双超过 GPT-5.4,这对文档处理场景很关键——中文 OCR 一直是国产模型的护城河。

官方对能力边界的诚实表述

官方博客没有把 Qwen3.7-Plus 吹成「全面第一」,而是明确说了它的定位:

Qwen3.7-Plus delivers competitive text performance that approaches Max-tier models across the board.

关键词是 「approaches Max-tier」(接近 Max 级),不是「超越 Max 级」。官方承认在纯文本任务上,Qwen3.7-Plus 是 Plus 档位,对标的是其他 Plus 档模型,不是 Opus-4.6 Max 这种旗舰。

官方同时承认了几个短板(通过对比表里的空单元格和较低分数体现):

  • HLE(人类终极考试)34.7:低于 Opus-4.6 Max(40.0)和 DeepSeek-V4-Pro Max(37.7)
  • Apex 22.7:远低于 DeepSeek-V4-Pro Max(38.3)和 Opus-4.6 Max(34.5)
  • SWE-Verified 77.7:低于 Opus-4.6 Max(80.8)

这些数字官方都贴出来了,没有藏。这种「强项讲透、弱项不藏」的发布风格,比单纯吹跑分更可信。

跨框架泛化:Agent 层和模型层解耦

官方博客有一段特别值得注意:

It generalizes across agent scaffolds, performing consistently whether deployed through Claude Code, OpenClaw, Qwen Code, or other frameworks.

翻译:Qwen3.7-Plus 在 Claude Code、OpenClaw、Qwen Code 等不同 Agent 框架里表现一致。

这件事的行业意义大于模型本身:

维度 含义
模型层 Qwen3.7-Plus 不锁定自家框架
框架层 Claude Code 不锁定 Anthropic 模型
用户层 可以混搭「阿里模型 + Anthropic 框架」

Agent 框架和底层模型正在解耦。 这对开发者是好事——不用被迫买全家桶。但对厂商的商业模式是挑战——模型订阅和框架订阅的捆绑销售会越来越难。

行业影响

1. 多模态 Agent 成为国产模型的差异化战场。 Qwen3.7-Plus 在 ScreenSpot Pro、AndroidWorld、OSWorld-Verified 上的表现,说明国产模型在「GUI 操作」这个具体场景已经摸到第一梯队。这个场景的商业价值很直接:RPA、自动化测试、无障碍辅助。

2. Plus 档位对标 Max 档位的性价比叙事。 官方明确说 Qwen3.7-Plus「approaches Max-tier」,定价却是 Plus 档。这对预算敏感的团队有吸引力——用 Plus 的价格买到接近 Max 的能力。

3. 跨框架兼容倒逼全家桶解绑。 Qwen3.7-Plus 跑在 Claude Code 里,意味着用户不再需要为了用某个框架而买某个厂商的模型。这会压低整体 API 价格。

4. 中文 OCR / 文档处理护城河巩固。 OCR-Bench-V2 中英文双双领先 GPT-5.4,对国内企业级文档处理场景(合同、票据、报表)是硬实力。

诚实的局限

  • 官方未公布 API 定价。 qwen.ai 博客没有贴价格,具体费用需查阿里云百炼控制台。本文不编造任何定价数字。
  • 对比对象不含最新旗舰。 官方表格对比的是 Opus-4.6 Max、Gemini-3.1 Pro、GPT-5.4,没有对比 5 月 28 日发布的 Claude Opus 4.8 和 5 月 19 日发布的 Gemini 3.5 Flash。这是官方表格的时效性局限,不是本文的疏漏。
  • 客户评价缺失。 与 Anthropic 公告不同,qwen.ai 这篇博客没有贴署名客户评价,只有基准数字。
  • 「11 小时独立开发 App」等网友实测标题未在官方博客出现。 这类传播标题来自中文自媒体,本文不作为官方数据引用。

写在最后

Qwen3.7-Plus 最值得记住的不是某个跑分第一,而是它在「看屏幕操作 GUI」这件事上拿出了硬数字。

ScreenSpot Pro 79.0、AndroidWorld 81.0、OSWorld-Verified 73.3——这三个基准共同定义了「多模态 Agent」在 2026 年中的及格线。Qwen3.7-Plus 越过了这条线,而且是在 Plus 档位的价格上越过的。

至于它能不能在 Claude Opus 4.8 和 Gemini 3.5 Flash 的夹击下站稳,要看阿里云百炼的 API 定价和实际生产环境的稳定性反馈。

官方博客原文:qwen.ai/blog?id=qwen3.7-plus 阿里云百炼控制台:modelstudio.alibabacloud.com