Gemini 3.5 Flash：Flash 级价格，Pro 级 Agent 能力

2026 年 5 月 19 日凌晨，Google I/O 2026 开幕式上，Sundar Pichai 没讲客套话，直接甩出 Gemini 3.5 Flash。

这不是常规升级。一个 Flash 级别的模型，在编码和 Agent 任务上超过了自家旗舰 Gemini 3.1 Pro——而后者贵了将近一倍。

Google 这次没跟你玩虚的——它把"性价比旗舰"这个词重新定义了。

核心规格

维度	参数
发布日期	2026 年 5 月 19 日
Model ID	`gemini-3.5-flash`
版本号	`3.5-flash-05-2026`
上下文窗口	1,048,576 token（1M）
最大输出	65,536 token（64K）
输入模态	文本、图像、音频、视频（原生多模态）
动态思考	默认开启（minimal/low/medium/high 四级）
知识截止	2026 年 1 月
Computer Use	❌ 不支持

定位策略的深意

3.5 Flash 不是 Pro 的降配版，而是专门为长时 Agent 工作流和代码任务重新设计的模型。Google 给它的 slogan 是 "frontier intelligence with action"——前沿智能加上行动力。

发布时间线：

2026-05-19：Gemini 3.5 Flash GA，API 即刻开放
2026-05-20：Antigravity 2.0 桌面应用 + CLI 发布
下月：Gemini 3.5 Pro 发布（测试中）

跑分屠榜：Flash 掀翻自家旗舰

在 AI 圈，光吹牛没用，数据才是硬道理。Gemini 3.5 Flash 这次交出的成绩单，堪称"以下犯上"的典范。

Terminal-Bench 2.1：编码能力质变

Terminal-Bench 是测试模型在真实终端环境中完成编码任务的能力基准。

模型	Terminal-Bench 2.1
Gemini 3.5 Flash	76.2%
Gemini 3.1 Pro	~72%
GPT-5.5	~78%
Claude Sonnet 4.8	~75%

76.2% 意味着 Flash 级模型在编码任务上已经追平甚至超过了更贵的旗舰模型——这是性价比的质变。

MCP Atlas：Agent 工具使用可靠性

MCP Atlas 测试模型在多工具协作场景下的可靠性，是 Agent 能力的核心指标。

模型	MCP Atlas
Gemini 3.5 Flash	83.6%
Gemini 3.1 Pro	~79%
GPT-5.5	~81%
Claude Sonnet 4.8	~80%

83.6% 的得分让 3.5 Flash 成为当前 Agent 工具使用最可靠的模型之一。

GDPval-AA：Agent 任务综合表现

模型	GDPval-AA (Elo)
Gemini 3.5 Flash	1656
Gemini 3.1 Pro	~1580
GPT-5.5	~1620
Claude Sonnet 4.8	~1600

CharXiv Reasoning：多模态推理

模型	CharXiv
Gemini 3.5 Flash	84.2%
Gemini 3.1 Pro	~82%
GPT-5.5	~85%
Claude Sonnet 4.8	~83%

核心结论：3.5 Flash 在编码和 Agent 任务上接近甚至超过更贵的旗舰模型，价格只有它们的零头。

底层革新：动态思考 + 思考保持

Dynamic Thinking 四级配置

3.5 Flash 用 thinking_level 替代了旧的 thinking_budget，4 个级别：

级别	适用场景	成本
minimal	简单问答、格式转换	最低
low	日常对话、简单总结	低
medium	常规编码、文档分析（默认）	中
high	复杂推理、多步 Agent、数学证明	最高

不指定时默认开启动态思考，模型会根据问题难度自动分配计算资源——简单问题快速回答，复杂问题深度推理。这解决了传统模型"简单问题过度思考、复杂问题思考不足"的矛盾。

Thought Preservation：思考上下文自动保持

3.5 Flash 支持思考上下文自动保持——多轮对话中，模型的中间推理过程会自动传递到后续轮次，不需要额外 API 配置。

这对 Agent 场景特别重要：一个调试任务可能需要 10+ 轮迭代，之前的思考链自动保留，不会丢失上下文。

Managed Agents API：一键启动 Agent

这是 3.5 Flash 最有价值的新能力——一个 API 调用就能启动完整的 Agent。

工作原理

一个 API 调用 → 启动 Agent → 隔离 Linux 容器 → 推理 + 工具调用 + 代码执行 → 返回结果

Agent 运行在隔离的 Linux 容器中，文件和状态跨轮次持久化。这意味着你可以启动一个 Agent，让它执行多步骤任务，中间结果保存在容器里，后续调用继续使用。

可用工具

工具	用途
`google_search`	Google 搜索
`url_context`	读取 URL 内容
`code_execution`	在容器中执行代码

关键特性

隔离执行：每个 Agent 运行在独立 Linux 容器
状态持久化：文件和状态跨轮次保存
多轮支持：后续调用可以引用之前的执行结果
自动推理：模型自动规划步骤、调用工具、迭代执行

Antigravity：Agent 执行框架

Antigravity 是 Google 的 Agent 执行框架，3.5 Flash 是它的默认模型。通过 Antigravity Agent API 可以构建更复杂的自定义 Agent。

Antigravity vs 直接 API 对比

维度	直接 Gemini API	Antigravity Agent
模型	`gemini-3.5-flash`	`antigravity-preview-05-2026`
执行环境	无状态	远程容器，有状态
工具使用	需手动编排	自动规划+调用
代码执行	不支持	内置 `code_execution`
多轮上下文	手动管理	自动保持
适用场景	单次问答/补全	复杂多步 Agent 任务

选择建议：简单问答用直接 API，复杂 Agent 任务用 Antigravity。

1M 上下文：智能管理的阶梯分布

Gemini 3.5 Flash 原生支持 100 万 token 上下文，配合 90% 缓存折扣，是长文档处理和大型代码仓库分析的理想选择。

多模态输入容量

模态	容量
音频输入	最长 8.4 小时/prompt
图像输入	最多 900 张/prompt
视频输入	最长 1 小时/prompt
上下文窗口	1,048,576 token

定价：Flash 级价格，Pro 级能力

项目	Gemini 3.5 Flash	Gemini 3.1 Pro	GPT-5.5	Claude Sonnet 4.8
输入价格 / 1M token	$1.50	$2.50	~$10	~$3
输出价格 / 1M token	$9.00	$15.00	~$30	~$15
缓存输入 / 1M token	$0.15	—	—	—
缓存折扣	90%	—	—	—

关键点：

比 Gemini 3.1 Pro 便宜 40%，但在编码和 Agent 任务上超过它
缓存折扣 90%——Agent 场景系统提示词复用率高，缓存命中后成本降到原来的十分之一
64K 输出足够长，不需要多轮拼接

Agent 场景成本实战

场景 1：单次编码 Agent 任务

系统提示词（可缓存）：5K × $0.15/1M = $0.00075
用户输入：2K × $1.50/1M = $0.003
工具调用（4 轮）：8K × $1.50/1M = $0.012
模型输出：3K × $9.00/1M = $0.027
总计：~$0.04 / 次

场景 2：长上下文 Agent（1M 上下文）

系统提示词（缓存）：5K × $0.15/1M = $0.00075
长上下文输入：800K × $1.50/1M = $1.20
多轮交互（5 轮，输入复用缓存）：5 × 2K × $0.15/1M = $0.00075
输出：10K × $9.00/1M = $0.09
总计：~$1.29 / 次

缓存折扣在这里发挥了关键作用——800K 的系统提示词和上下文在后续轮次全部走缓存，成本从 $1.20 降到几乎可以忽略。

与竞品 Agent 成本对比

场景	Gemini 3.5 Flash	Claude Sonnet	GPT-5.5
单次编码任务	~$0.04	~$0.08	~$0.15
长上下文 Agent	~$1.29	~$3.50	~$8.00
100 次/天编码	~$4	~$8	~$15
100 次/天长上下文	~$129	~$350	~$800

可用渠道

Gemini 3.5 Flash 通过以下渠道分发：

Gemini App（消费者端）
Google AI Studio（开发者端）
Antigravity 2.0（桌面应用 + CLI）
Gemini API
Google Search AI Mode

使用层级：Free（免费额度）/ Standard（标准付费）/ Priority（高优先级）

适用场景与限制

适合 3.5 Flash 的场景

场景	原因
Agent 工作流	原生支持 Agent 执行，MCP Atlas 83.6%
编码辅助	Terminal-Bench 76.2%，性价比最高
多模态分析	文本+图片+音频+视频，CharXiv 84.2%
长文档处理	1M 上下文 + 90% 缓存折扣
高频 API 调用	低延迟 + 低成本 + 免费层支持
Vibe Coding	Google AI Studio 原生支持，Antigravity 集成

不适合的场景

场景	原因	替代
Computer Use	3.5 系列暂不支持	Gemini 3.1 Pro
超深度推理	Flash 级推理深度有上限	等 3.5 Pro
离线/本地部署	云端 API Only	开源模型（Llama/Qwen）
美国以外低延迟	非全球区域 +10% 价格和延迟	等区域扩展

行业影响

1. "Flash 掀翻 Pro"改写竞争规则。 一个 Flash 级模型在编码和 Agent 任务上超过自家旗舰，打破了传统"Pro 一定比 Flash 强"的层级。这意味着 Google 的模型策略从"按版本号分级"转向"按场景分工"。

2. Agent 能力从"实验室专享"变为"API 一键启动"。 Managed Agents API 让开发者一个调用就能启动完整 Agent——隔离容器、工具调用、代码执行、状态持久化全部内置。这改变了 Agent 开发的复杂度门槛。

3. 缓存折扣重塑 Agent 经济学。 90% 的缓存折扣让长时 Agent 的成本从"奢侈品"变为"日用品"。100 次/天长上下文 Agent 只要 $129，这是之前不可想象的。

4. 思考保持解决多轮 Agent 痛点。 Thought Preservation 让多轮对话的中间推理自动传递，不需要开发者手动管理上下文——这降低了 Agent 开发的工程复杂度。

5. AI 竞争进入"场景细分纪元"。 3.5 Flash 专注 Agent 和编码，3.5 Pro 专注深度推理，3.1 Pro 保留 Computer Use——厂商不再追求"一个模型打天下"，而是按场景分工。这是技术成熟度的标志。

Gemini 3.5 Flash 的意义不在于又一次跑分上涨，而在于它证明了"性价比"可以重新定义——当 Flash 级模型在 Agent 和编码任务上超过 Pro 级旗舰，AI 的竞争维度从"谁更聪明"变成了"谁能让更多人用上够用的智能"。

Previous Google I/O 2026：Gemini 3.5 Flash 用 Flash 的价格打出 Pro 的性能，Omni 让视频可对话编辑 Next Claude Opus 4.8：定价不变，诚实度翻 4 倍，Anthropic 把「不瞎编」做成了卖点