2026 年 5 月 19 日,Google I/O 2026 在加州山景城开幕。Google DeepMind 同步在官方博客发布 Gemini 3.5: frontier intelligence with action。
这次发布会的核心信息可以用一句话概括:Google 不再追求「最大的模型」,而是追求「最快的模型能干最重的活」。
Gemini 3.5 系列的第一款是 3.5 Flash——名字叫 Flash(轻量系列),但官方明确说它「outperforming Gemini 3.1 Pro on challenging coding and agentic benchmarks」。用 Flash 的价格打出 Pro 的性能,这是 2026 年中段模型竞争的新打法。
官方公布的核心规格
以下数据全部来自 blog.google 官方公告,作者署名为 Google DeepMind 核心团队:
| 维度 | Gemini 3.5 Flash |
|---|---|
| 发布日期 | 2026 年 5 月 19 日 |
| 定位 | 前沿智能 + 行动(frontier intelligence with action) |
| 作者 | Koray Kavukcuoglu(CTO, Google DeepMind) |
| 作者 | Jeff Dean(Chief Scientist) |
| 作者 | Oriol Vinyals(VP, Google DeepMind) |
| 作者 | Noam Shazeer(VP, Google DeepMind) |
| 速度 | 比其他前沿模型快 4 倍(output tokens per second) |
| 可用渠道 | Gemini app / AI Mode in Search / Antigravity / Gemini API / Android Studio / Gemini Enterprise |
关键信息:3.5 Flash 当天就向全球数十亿用户开放。 不是「预约排队」,不是「内测申请」,是直接在 Gemini app 和 Google Search 的 AI Mode 里就能用。
官方同时透露:3.5 Pro 已经在内部使用,下个月推出。 这意味着 Google 这次是「先发 Flash 占市场,再发 Pro 冲旗舰」的两步走策略。
官方基准:四个硬数字
公告里给出了四个关键基准分数,全部是官方数据:
| 基准 | Gemini 3.5 Flash | 含义 |
|---|---|---|
| Terminal-Bench 2.1 | 76.2% | 终端任务完成度 |
| GDPval-AA | 1656 Elo | 通用 Agent 价值评估 |
| MCP Atlas | 83.6% | MCP 工具调用基准 |
| CharXiv Reasoning | 84.2% | 多模态文档推理 |
官方原文:
It's our strongest agentic and coding model yet, outperforming Gemini 3.1 Pro on challenging coding and agentic benchmarks like Terminal-Bench 2.1 (76.2%), GDPval-AA (1656 Elo) and MCP Atlas (83.6%), and leading in multimodal understanding (84.2% on CharXiv Reasoning).
这四个基准的选择很有讲究。 Terminal-Bench 测编码 Agent,GDPval-AA 测通用 Agent 价值,MCP Atlas 测工具调用,CharXiv 测多模态推理——正好覆盖「Agent + 编码 + 工具 + 多模态」四个维度。Google 没有贴 SWE-bench 这种容易被刷分的基准,而是选了更贴近真实工作流的指标。
值得注意的是,Anthropic 在 Claude Opus 4.8 公告的脚注里主动提到了 Gemini 3.5 Flash:在 Finance Agent v2 基准上,Gemini 3.5 Flash 得分 57.9%,官方表述是「a significant improvement over Gemini 3.1 Pro」。这是跨厂商的官方互认,比较罕见。
速度:4 倍意味着什么
官方公告里反复强调一个数字:4 times faster than other frontier models(按 output tokens per second 计算)。
这个数字的实际意义:
| 场景 | 传统前沿模型 | Gemini 3.5 Flash |
|---|---|---|
| 长文档分析 | 等待 60 秒 | 等待 15 秒 |
| Agent 多步任务 | 每步 30 秒 | 每步 7-8 秒 |
| 代码生成 | 1000 行 / 分钟 | 约 4000 行 / 分钟 |
官方原文:
Landing in the top-right quadrant of the Artificial Analysis index, 3.5 Flash delivers frontier-level intelligence at exceptional speed — proving you no longer have to trade quality for latency.
「不再需要在质量和延迟之间二选一」——这句话直接对标了过去两年 AI 行业的核心矛盾:要么用 Opus / Pro 级模型等半天,要么用 Flash 级模型牺牲质量。3.5 Flash 试图打破这个权衡。
Antigravity:Google 的 Agent 框架
这次 I/O 的另一个重点是 Google Antigravity——Google 自家的 Agent 开发平台。3.5 Flash 是它的默认引擎。
官方给出了几个 Antigravity + 3.5 Flash 的演示案例:
| 演示场景 | 说明 |
|---|---|
| 资产重命名分类 | 自动按动态标准重命名和分类非结构化资产 |
| AlphaZero 论文复现 | 两个 Agent 协作,6 小时内合成论文并写出可玩游戏 |
| 代码库迁移 | 把混乱的遗留代码库转换到 Next.js |
| 城市景观生成 | 子 Agent 创建新的城市景观 |
| 游戏开发 | builder 和 player 两个 Agent 在快速自改进循环中开发游戏 |
「6 小时内合成 AlphaZero 论文并写出可玩游戏」 这个案例最值得注意——它不是单模型任务,而是多 Agent 协作。官方原文:
When coupled with the updated Antigravity harness, 3.5 Flash becomes a powerful engine for deploying collaborative subagents to tackle problems at scale.
这与 Anthropic 的 Dynamic Workflows(单会话数百个子代理)是同一个方向:2026 年中段,所有头部厂商都在押注「多 Agent 并行」。
企业合作伙伴:六个署名案例
官方公告列出了六家企业的署名案例,全部是真实公司:
| 企业 | 使用场景 |
|---|---|
| Shopify | 并行子代理分析复杂数据,提升商家增长预测准确性 |
| Macquarie Bank(麦格理银行) | 加速客户 onboarding,处理 100+ 页文档,低延迟推荐 |
| Salesforce | 集成到 Agentforce,多子代理保留上下文执行复杂多轮工具调用 |
| Ramp | 多模态理解复杂发票 + 历史模式推理,智能 OCR |
| Xero | 自动管理多周工作流,如识别供应商并收集 1099 税表信息 |
| Databricks | 监控检索实时信息,跨海量数据集推理诊断问题 |
这六个案例的共同点:都是「长周期、多步骤、跨系统」的真实企业工作流。 不是「写一首诗」这种玩具任务。麦格理银行处理 100+ 页文档、Xero 管理「多周」工作流——这些场景过去需要人类分析师花几天到几周。
官方原文:
What used to take a developer days or an auditor weeks, 3.5 Flash can now help complete in a fraction of the time, often at less than half the cost of other frontier models.
「不到其他前沿模型一半的成本」——这是官方对性价比的直接表态。
Gemini Spark:3.5 Flash 驱动的个人 Agent
I/O 上发布的 Gemini Spark 是 3.5 Flash 的消费级应用:
| 维度 | Gemini Spark |
|---|---|
| 定位 | 个人 AI Agent |
| 模型 | Gemini 3.5 Flash |
| 运行模式 | 24/7 持续运行 |
| 能力 | 导航数字生活,在用户指导下代为行动 |
| 可用性 | 当天向 trusted testers 推出 |
| Beta 开放 | 下周向美国 Google AI Ultra 订阅者开放 |
「24/7 运行」 是关键——这不是「打开 app 才能用」的助手,而是「一直在后台帮你做事」的 Agent。这与 Anthropic 的 Dynamic Workflows(长时异步工作流)是同一个趋势:Agent 从「被动响应」转向「主动持续运行」。
Gemini Omni:视频的 Nano Banana
I/O 上同时发布的还有 Gemini Omni,官方定位是「Nano Banana, but for video」(视频版的 Nano Banana)。
来自 deepmind.google/models/gemini-omni 的官方描述:
| 能力 | 说明 |
|---|---|
| 对话式视频编辑 | 通过自然语言逐步编辑视频 |
| 真实世界知识 | 结合物理直觉 + 历史 / 科学 / 文化上下文 |
| 多模态参考 | 图像、文本、视频、音频均可作为参考输入 |
| 多轮一致性 | 跨轮次保持场景连贯 |
| 物理遵循 | 理解重力、动能、流体动力学 |
官方演示的几个能力:
- 对话式编辑:「让镜子像液体一样涟漪」「让人变成单色线稿」——每一步编辑都建立在上一步基础上
- 参考图编辑:用参考图编辑视频,比如把手里的草图变成视频里的飞行器
- 多轮一致性:先「把小提琴手传送到新环境」,再「让小提琴隐形」,再「换摄像机角度」——场景保持连贯
- 物体替换:用自然语言把视频里的飞船换成时钟、飞盘或乌鸦
Gemini Omni 的意义:视频编辑从「抽卡式生成」转向「对话式精修」。 过去 AI 视频是「描述一次,生成一次,不满意就重来」,Omni 是「描述一次,生成,再用自然语言逐步调整」。
可用渠道:Gemini app 和 Google Flow。
安全:Frontier Safety Framework
官方公告专门用一段讲安全:
Gemini 3.5 was developed in accordance with our Frontier Safety Framework. We have strengthened our cyber and CBRN safeguards... We achieve this with new, more advanced safety training and mitigations, including interpretability tools that help check and understand the AI's inner reasoning before it provides a response.
关键点:
- CBRN 安全(化学、生物、放射性、核)加强
- 可解释性工具:在模型响应前检查其内部推理
- 误拒率降低(less likely to mistakenly refuse to answer safe queries)
「检查 AI 内部推理」 这个表述值得注意——它暗示 Google 在用 mechanistic interpretability 工具做前置安全检查,不是单纯靠 RLHF 后处理。
行业影响
1. Flash 档位打 Pro 档位的性能,改变定价结构。 3.5 Flash 在 Terminal-Bench 2.1 上 76.2%,超过自家上一代旗舰 3.1 Pro。这意味着「旗舰」和「轻量」的边界正在模糊,用户不再需要为「旗舰」标签付溢价。
2. 多 Agent 并行成为行业共识。 Google Antigravity、Anthropic Dynamic Workflows、阿里跨框架泛化——三家头部厂商同时押注「单会话多子代理」。Agent 框架层正在成为新的竞争焦点。
3. 24/7 个人 Agent 从概念走向产品。 Gemini Spark 的 Beta 下周开放,这是「持续运行的个人 Agent」第一次有明确的产品落地时间表。
4. 视频编辑范式转移。 Gemini Omni 把视频从「一次性生成」转向「对话式精修」,这对创作者工作流是结构性改变。
5. 跨厂商官方互认基准。 Anthropic 在 Opus 4.8 公告里引用 Gemini 3.5 Flash 的 Finance Agent v2 分数——头部厂商开始互相引用对方模型的基准分数,说明行业评测正在走向标准化。
诚实的局限
- 3.5 Pro 没有公开基准。 官方只说「已在内部使用,下个月推出」,没有任何跑分。3.5 Flash 的表现不能直接外推到 3.5 Pro。
- Antigravity 演示是受控场景。 6 小时复现 AlphaZero 论文这类案例,是官方演示,不是第三方独立验证。
- Gemini Spark 的 Beta 限美国。 下周开放的 Beta 只针对美国 Google AI Ultra 订阅者,其他地区用户暂时用不到。
- Gemini Omni 没有公开基准。 官方页面只有演示视频和 prompt 示例,没有量化对比。
- 「4 倍速度」的对比对象模糊。 官方说「比其他前沿模型快 4 倍」,但没指名是哪些模型。这个数字以 Artificial Analysis 第三方榜单为准更可靠。
- 企业案例是厂商筛选的。 六家合作企业的反馈全部正面,这是厂商公告的常态,不代表全部生产环境反馈。
写在最后
Google I/O 2026 最值得记住的不是某个单一产品,而是一个策略转向:用 Flash 的成本结构去打 Pro 的性能门槛。
当 Gemini 3.5 Flash 在 Terminal-Bench 2.1 上拿到 76.2%、速度还快 4 倍,传统「旗舰 = 贵 + 慢 + 强」的等式就被打破了。这对所有 AI 厂商的定价策略都是冲击——Opus 4.8 保持 $5/$25 不降价,部分原因可能就是 Google 在用 Flash 价格战施压。
加上 Gemini Omni 的对话式视频编辑和 Gemini Spark 的 24/7 个人 Agent,Google 这次 I/O 的完整叙事是:模型层(3.5 Flash)+ 框架层(Antigravity)+ 应用层(Spark / Omni)全栈打通。
至于这个全栈能不能跑赢 Anthropic 的「诚实度」叙事和阿里的「多模态 GUI」专精,要看 3.5 Pro 下个月发布后的实际表现。
官方公告原文:blog.google - Gemini 3.5: frontier intelligence with action Gemini Omni 产品页:deepmind.google/models/gemini-omni I/O 2026 主页:io.google/2026