2026 年 5 月 19 日凌晨,Google I/O 2026 开幕式上,Sundar Pichai 没讲客套话,直接甩出 Gemini 3.5 Flash。
这不是常规升级。一个 Flash 级别的模型,在编码和 Agent 任务上超过了自家旗舰 Gemini 3.1 Pro——而后者贵了将近一倍。
Google 这次没跟你玩虚的——它把"性价比旗舰"这个词重新定义了。
核心规格
| 维度 | 参数 |
|---|---|
| 发布日期 | 2026 年 5 月 19 日 |
| Model ID | gemini-3.5-flash |
| 版本号 | 3.5-flash-05-2026 |
| 上下文窗口 | 1,048,576 token(1M) |
| 最大输出 | 65,536 token(64K) |
| 输入模态 | 文本、图像、音频、视频(原生多模态) |
| 动态思考 | 默认开启(minimal/low/medium/high 四级) |
| 知识截止 | 2026 年 1 月 |
| Computer Use | ❌ 不支持 |
定位策略的深意
3.5 Flash 不是 Pro 的降配版,而是专门为长时 Agent 工作流和代码任务重新设计的模型。Google 给它的 slogan 是 "frontier intelligence with action"——前沿智能加上行动力。
发布时间线:
- 2026-05-19:Gemini 3.5 Flash GA,API 即刻开放
- 2026-05-20:Antigravity 2.0 桌面应用 + CLI 发布
- 下月:Gemini 3.5 Pro 发布(测试中)
跑分屠榜:Flash 掀翻自家旗舰
在 AI 圈,光吹牛没用,数据才是硬道理。Gemini 3.5 Flash 这次交出的成绩单,堪称"以下犯上"的典范。
Terminal-Bench 2.1:编码能力质变
Terminal-Bench 是测试模型在真实终端环境中完成编码任务的能力基准。
| 模型 | Terminal-Bench 2.1 |
|---|---|
| Gemini 3.5 Flash | 76.2% |
| Gemini 3.1 Pro | ~72% |
| GPT-5.5 | ~78% |
| Claude Sonnet 4.8 | ~75% |
76.2% 意味着 Flash 级模型在编码任务上已经追平甚至超过了更贵的旗舰模型——这是性价比的质变。
MCP Atlas:Agent 工具使用可靠性
MCP Atlas 测试模型在多工具协作场景下的可靠性,是 Agent 能力的核心指标。
| 模型 | MCP Atlas |
|---|---|
| Gemini 3.5 Flash | 83.6% |
| Gemini 3.1 Pro | ~79% |
| GPT-5.5 | ~81% |
| Claude Sonnet 4.8 | ~80% |
83.6% 的得分让 3.5 Flash 成为当前 Agent 工具使用最可靠的模型之一。
GDPval-AA:Agent 任务综合表现
| 模型 | GDPval-AA (Elo) |
|---|---|
| Gemini 3.5 Flash | 1656 |
| Gemini 3.1 Pro | ~1580 |
| GPT-5.5 | ~1620 |
| Claude Sonnet 4.8 | ~1600 |
CharXiv Reasoning:多模态推理
| 模型 | CharXiv |
|---|---|
| Gemini 3.5 Flash | 84.2% |
| Gemini 3.1 Pro | ~82% |
| GPT-5.5 | ~85% |
| Claude Sonnet 4.8 | ~83% |
核心结论:3.5 Flash 在编码和 Agent 任务上接近甚至超过更贵的旗舰模型,价格只有它们的零头。
底层革新:动态思考 + 思考保持
Dynamic Thinking 四级配置
3.5 Flash 用 thinking_level 替代了旧的 thinking_budget,4 个级别:
| 级别 | 适用场景 | 成本 |
|---|---|---|
| minimal | 简单问答、格式转换 | 最低 |
| low | 日常对话、简单总结 | 低 |
| medium | 常规编码、文档分析(默认) | 中 |
| high | 复杂推理、多步 Agent、数学证明 | 最高 |
不指定时默认开启动态思考,模型会根据问题难度自动分配计算资源——简单问题快速回答,复杂问题深度推理。这解决了传统模型"简单问题过度思考、复杂问题思考不足"的矛盾。
Thought Preservation:思考上下文自动保持
3.5 Flash 支持思考上下文自动保持——多轮对话中,模型的中间推理过程会自动传递到后续轮次,不需要额外 API 配置。
这对 Agent 场景特别重要:一个调试任务可能需要 10+ 轮迭代,之前的思考链自动保留,不会丢失上下文。
Managed Agents API:一键启动 Agent
这是 3.5 Flash 最有价值的新能力——一个 API 调用就能启动完整的 Agent。
工作原理
一个 API 调用 → 启动 Agent → 隔离 Linux 容器 → 推理 + 工具调用 + 代码执行 → 返回结果
Agent 运行在隔离的 Linux 容器中,文件和状态跨轮次持久化。这意味着你可以启动一个 Agent,让它执行多步骤任务,中间结果保存在容器里,后续调用继续使用。
可用工具
| 工具 | 用途 |
|---|---|
google_search |
Google 搜索 |
url_context |
读取 URL 内容 |
code_execution |
在容器中执行代码 |
关键特性
- 隔离执行:每个 Agent 运行在独立 Linux 容器
- 状态持久化:文件和状态跨轮次保存
- 多轮支持:后续调用可以引用之前的执行结果
- 自动推理:模型自动规划步骤、调用工具、迭代执行
Antigravity:Agent 执行框架
Antigravity 是 Google 的 Agent 执行框架,3.5 Flash 是它的默认模型。通过 Antigravity Agent API 可以构建更复杂的自定义 Agent。
Antigravity vs 直接 API 对比
| 维度 | 直接 Gemini API | Antigravity Agent |
|---|---|---|
| 模型 | gemini-3.5-flash |
antigravity-preview-05-2026 |
| 执行环境 | 无状态 | 远程容器,有状态 |
| 工具使用 | 需手动编排 | 自动规划+调用 |
| 代码执行 | 不支持 | 内置 code_execution |
| 多轮上下文 | 手动管理 | 自动保持 |
| 适用场景 | 单次问答/补全 | 复杂多步 Agent 任务 |
选择建议:简单问答用直接 API,复杂 Agent 任务用 Antigravity。
1M 上下文:智能管理的阶梯分布
Gemini 3.5 Flash 原生支持 100 万 token 上下文,配合 90% 缓存折扣,是长文档处理和大型代码仓库分析的理想选择。
多模态输入容量
| 模态 | 容量 |
|---|---|
| 音频输入 | 最长 8.4 小时/prompt |
| 图像输入 | 最多 900 张/prompt |
| 视频输入 | 最长 1 小时/prompt |
| 上下文窗口 | 1,048,576 token |
定价:Flash 级价格,Pro 级能力
| 项目 | Gemini 3.5 Flash | Gemini 3.1 Pro | GPT-5.5 | Claude Sonnet 4.8 |
|---|---|---|---|---|
| 输入价格 / 1M token | $1.50 | $2.50 | ~$10 | ~$3 |
| 输出价格 / 1M token | $9.00 | $15.00 | ~$30 | ~$15 |
| 缓存输入 / 1M token | $0.15 | — | — | — |
| 缓存折扣 | 90% | — | — | — |
关键点:
- 比 Gemini 3.1 Pro 便宜 40%,但在编码和 Agent 任务上超过它
- 缓存折扣 90%——Agent 场景系统提示词复用率高,缓存命中后成本降到原来的十分之一
- 64K 输出足够长,不需要多轮拼接
Agent 场景成本实战
场景 1:单次编码 Agent 任务
- 系统提示词(可缓存):5K × $0.15/1M = $0.00075
- 用户输入:2K × $1.50/1M = $0.003
- 工具调用(4 轮):8K × $1.50/1M = $0.012
- 模型输出:3K × $9.00/1M = $0.027
- 总计:~$0.04 / 次
场景 2:长上下文 Agent(1M 上下文)
- 系统提示词(缓存):5K × $0.15/1M = $0.00075
- 长上下文输入:800K × $1.50/1M = $1.20
- 多轮交互(5 轮,输入复用缓存):5 × 2K × $0.15/1M = $0.00075
- 输出:10K × $9.00/1M = $0.09
- 总计:~$1.29 / 次
缓存折扣在这里发挥了关键作用——800K 的系统提示词和上下文在后续轮次全部走缓存,成本从 $1.20 降到几乎可以忽略。
与竞品 Agent 成本对比
| 场景 | Gemini 3.5 Flash | Claude Sonnet | GPT-5.5 |
|---|---|---|---|
| 单次编码任务 | ~$0.04 | ~$0.08 | ~$0.15 |
| 长上下文 Agent | ~$1.29 | ~$3.50 | ~$8.00 |
| 100 次/天编码 | ~$4 | ~$8 | ~$15 |
| 100 次/天长上下文 | ~$129 | ~$350 | ~$800 |
可用渠道
Gemini 3.5 Flash 通过以下渠道分发:
- Gemini App(消费者端)
- Google AI Studio(开发者端)
- Antigravity 2.0(桌面应用 + CLI)
- Gemini API
- Google Search AI Mode
使用层级:Free(免费额度)/ Standard(标准付费)/ Priority(高优先级)
适用场景与限制
适合 3.5 Flash 的场景
| 场景 | 原因 |
|---|---|
| Agent 工作流 | 原生支持 Agent 执行,MCP Atlas 83.6% |
| 编码辅助 | Terminal-Bench 76.2%,性价比最高 |
| 多模态分析 | 文本+图片+音频+视频,CharXiv 84.2% |
| 长文档处理 | 1M 上下文 + 90% 缓存折扣 |
| 高频 API 调用 | 低延迟 + 低成本 + 免费层支持 |
| Vibe Coding | Google AI Studio 原生支持,Antigravity 集成 |
不适合的场景
| 场景 | 原因 | 替代 |
|---|---|---|
| Computer Use | 3.5 系列暂不支持 | Gemini 3.1 Pro |
| 超深度推理 | Flash 级推理深度有上限 | 等 3.5 Pro |
| 离线/本地部署 | 云端 API Only | 开源模型(Llama/Qwen) |
| 美国以外低延迟 | 非全球区域 +10% 价格和延迟 | 等区域扩展 |
行业影响
1. "Flash 掀翻 Pro"改写竞争规则。 一个 Flash 级模型在编码和 Agent 任务上超过自家旗舰,打破了传统"Pro 一定比 Flash 强"的层级。这意味着 Google 的模型策略从"按版本号分级"转向"按场景分工"。
2. Agent 能力从"实验室专享"变为"API 一键启动"。 Managed Agents API 让开发者一个调用就能启动完整 Agent——隔离容器、工具调用、代码执行、状态持久化全部内置。这改变了 Agent 开发的复杂度门槛。
3. 缓存折扣重塑 Agent 经济学。 90% 的缓存折扣让长时 Agent 的成本从"奢侈品"变为"日用品"。100 次/天长上下文 Agent 只要 $129,这是之前不可想象的。
4. 思考保持解决多轮 Agent 痛点。 Thought Preservation 让多轮对话的中间推理自动传递,不需要开发者手动管理上下文——这降低了 Agent 开发的工程复杂度。
5. AI 竞争进入"场景细分纪元"。 3.5 Flash 专注 Agent 和编码,3.5 Pro 专注深度推理,3.1 Pro 保留 Computer Use——厂商不再追求"一个模型打天下",而是按场景分工。这是技术成熟度的标志。
Gemini 3.5 Flash 的意义不在于又一次跑分上涨,而在于它证明了"性价比"可以重新定义——当 Flash 级模型在 Agent 和编码任务上超过 Pro 级旗舰,AI 的竞争维度从"谁更聪明"变成了"谁能让更多人用上够用的智能"。