2026 年 4 月 8 日,Google DeepMind 在官方博客发布 Gemma 4 系列开源模型,并在 Google I/O 2026 开发者大会上现场演示。首席科学家 Tris Warkentin 的原话是:“Gemma 4 是我们迄今为止最强大的开源模型,我们相信开源社区值得拥有最好的技术。”
8 个月。从 Gemma 3 到 Gemma 4 只用了 8 个月。更新速度的显著加快背后是 Google 对开源策略的态度转变——在 OpenAI 和 Anthropic 持续加码闭源模型的同时,Google 选择以更激进的节奏推进开源:纯文本进化为原生多模态,8K 上下文跳跃到 128K,单一尺寸扩展为三档规格。Gemma 4 用一组数字宣告:开源模型不再只是”够用”的替代品。
三档规格,精准覆盖
Gemma 4 提供三个尺寸,面向从边缘到服务器的完整部署场景:
| 模型 | 参数量 | 活跃参数 | 上下文 | 典型硬件 | 适用场景 |
|---|---|---|---|---|---|
| Gemma 4 27B | 27B | 27B | 128K | A100/H100/4090×2 | 服务器部署、复杂推理 |
| Gemma 4 12B | 12B | 12B | 128K | RTX 4090/3090 | 消费级 GPU、通用任务 |
| Gemma 4 2B | 2B | 2B | 128K | 手机/树莓派 | 边缘设备、移动端 |
三个尺寸共享同一套架构设计,这意味着在 2B 上验证的 prompt 策略可以直接迁移到 27B,无需重新调优。对于需要从开发到生产做无缝迁移的团队来说,这一点极其关键——你不需要维护两套不同的 prompt 工程。
| 维度 | Gemma 3 | Gemma 4 | 变化 |
|---|---|---|---|
| 最大参数 | 7B | 27B | +286% |
| 上下文长度 | 8K | 128K | +1500% |
| 多模态 | ✗(需外挂) | ✓(原生) | 质变 |
| 规格数量 | 1 | 3 | +2 |
| 发布间隔 | — | 8 个月 | 显著加快 |
原生多模态:不是外挂,是基因
前代 Gemma 只能处理文本,想要图像理解需要外挂视觉编码器——本质上是把视觉信息”翻译”成文本 token 再喂给模型,翻译过程不可避免地丢失信息。Gemma 4 直接在模型内部融合了视觉能力:
- 图像理解 — 支持多图输入,能同时对比分析多张图片
- 文档解析 — 表格、图表、手写笔记均可直接理解
- 视频帧处理 — 支持视频关键帧序列输入,理解时间维度信息
“原生”二字的关键含义:视觉信息不是通过外部编码器预处理后拼接,而是和文本 token 一起参与 Transformer 的每一层计算。这带来两个结构性优势:
- 跨模态推理更深 — 图像特征在每一层都与文本特征交互,而不是只在输入端拼接一次。就像一个人同时用眼睛和大脑处理信息,而不是先翻译成文字再阅读
- 效率更高 — 没有额外的编码器开销,视觉 token 处理路径与文本 token 共享计算资源
| 方案 | 外挂视觉编码器 | 原生多模态 |
|---|---|---|
| 视觉信息处理 | 预处理 → 拼接 → 文本模型 | 每层联合计算 |
| 跨模态交互深度 | 浅(仅输入端) | 深(全链路) |
| 额外参数开销 | +200M~1B 编码器 | 0(共享权重) |
| 推理延迟 | 编码器时间 + LLM 时间 | 单次推理 |
128K 上下文:不是窗口扩展,是架构革新
从 8K 直接跳到 128K,这不是简单的窗口扩大。注意力计算的复杂度是 O(n²),128K 上下文的理论计算量是 8K 的 256 倍。如果暴力扩展,任何硬件都扛不住。
Google 的解法是 RoPE 缩放 + 注意力分层:
- 前 4K token:使用全注意力(Full Attention)— 保证近期上下文的精确理解
- 4K-128K token:使用分组查询注意力(GQA)+ 滑动窗口 — 以压缩成本覆盖远距离信息
这个策略的类比:人类阅读方式。近处精读(Full Attention),远处检索(GQA + 滑动窗口)。你不会用同样的精力读论文的第一页和最后一页,模型也不需要。
实测效果:128K 上下文的推理速度仅比 8K 慢约 1.8 倍,远低于理论上的 16 倍。注意力计算内存占用降低约 60%。
| 上下文长度 | 注意力策略 | 相对推理速度 | 内存占用 |
|---|---|---|---|
| 0-4K | Full Attention | 1.0x | 基准 |
| 4K-32K | GQA + 滑动窗口 | 1.3x | +40% |
| 32K-128K | GQA + 滑动窗口 | 1.8x | +85% |
基准表现
Gemma 4 27B 在开源模型中达到了新水准:
| 基准 | Gemma 4 27B | Llama 4 17B | Mistral Large 2 | Qwen 2.5 72B |
|---|---|---|---|---|
| MMLU | 82.4 | 80.1 | 78.9 | 83.1 |
| HumanEval | 79.3 | 76.8 | 74.2 | 81.7 |
| MATH | 68.7 | 62.4 | 60.1 | 72.3 |
| MMMU(多模态) | 61.2 | — | — | 58.9 |
| LongBench | 48.6 | 41.3 | 43.7 | 50.2 |
三个值得关注的信号:
- 2B 打败上一代 7B — Gemma 4 2B 在 MMLU 上达到 63.8,超过 Gemma 3 7B 的 62.1。小模型的代际碾压,意味着边缘部署不再需要牺牲质量
- 多模态不是噱头 — MMMU 基准上 61.2 分,开源多模态模型中名列前茅。Qwen 2.5 72B 是 72B 参数的模型,在多模态上还不如 27B 的 Gemma 4
- 128K 真的能用 — LongBench 48.6 分,证明长上下文不是营销数字而是可用的能力
| 小模型代际对比 | Gemma 3 7B | Gemma 4 2B |
|---|---|---|
| 参数量 | 7B | 2B |
| MMLU | 62.1 | 63.8 |
| 推理成本 | 基准 | -71% |
效率优化
Gemma 4 在效率方面的工程优化同样值得关注:
知识蒸馏 — 27B 和 12B 模型在训练后期使用了 Google 内部大模型的蒸馏数据,在不增加参数量的情况下提升了推理质量。这解释了为什么 27B 的 Gemma 4 能在部分基准上跑赢 72B 的 Qwen。
量化友好 — 模型权重分布经过校准,对 INT4 和 INT8 量化极其友好。实测 INT4 量化后性能损失仅 1.2%。这意味着 27B 模型可以跑在一张 16GB 显存的消费级显卡上,12B 模型在 8GB 显卡上就能流畅运行。
| 量化方案 | 精度损失 | 显存需求(27B) | 显存需求(12B) |
|---|---|---|---|
| FP16(原始) | 0% | ~54GB | ~24GB |
| INT8 | 0.4% | ~27GB | ~12GB |
| INT4 | 1.2% | ~14GB | ~6GB |
Flash Attention 3 — 原生支持最新的 Flash Attention 3,在 H100 上推理速度提升约 35%。
INT4 量化仅损 1.2% 这组数据的意义不在于”你看量化多好”,而在于它打破了”开源模型必须跑在昂贵硬件上”的偏见。27B 模型 + INT4 = 一张 RTX 4080 就能跑,这让”本地部署大模型”从实验室走向了普通开发者的桌面。
竞品对比
2026 年 Q1 的开源 LLM 赛道,四方割据:
| 维度 | Gemma 4 27B | Llama 4 17B | Qwen 2.5 72B | Mistral Large 2 |
|---|---|---|---|---|
| 参数量 | 27B | 17B | 72B | 123B |
| 上下文 | 128K | 128K | 128K | 32K |
| 多模态 | ✓ 原生 | ✗ | ✓ 原生 | ✗ |
| 开源协议 | Gemma License | Llama License | Apache 2.0 | Apache 2.0 |
| 商用限制 | 月活 > 1 亿需申请 | 月活 > 7 亿需申请 | 无 | 无 |
| INT4 量化损失 | 1.2% | 2.8% | 3.1% | 2.4% |
| 边缘部署 | ✓(2B 版本) | ✗ | ✗ | ✗ |
| 最佳定位 | 全能型 | 轻量通用 | 中文/高精度 | 欧洲合规 |
Gemma 4 的竞争力不在单项第一,而在每一项都不弱——多模态、长上下文、多尺寸、高效率、完整生态。Qwen 2.5 在中文场景和纯文本基准上可能更强,但它没有 2B 版本,无法覆盖边缘部署。Llama 4 更轻量,但不支持多模态。Mistral 在欧洲合规场景有优势,但 32K 上下文和缺少视觉能力是硬伤。
工具与生态
Google 同时发布了一套完整的开发工具链:
| 工具 | 用途 | 亮点 |
|---|---|---|
| Gemma 4 Cookbook | 入门到部署教程集 | 覆盖全部三档模型 |
| Keras 3 集成 | 三行代码加载推理 | 最简 API |
| Hugging Face | 发布即上架 | Transformers 库直接支持 |
| Vertex AI Model Garden | 一键部署到 Google Cloud | 无需运维 |
| Gemma Shield | 内置安全分类器 | 检测有害输出 |
from keras_nlp.models import Gemma4CausalLM
model = Gemma4CausalLM.from_preset("gemma4_12b_en")
output = model.generate("Explain quantum computing:", max_length=256)
开源协议
Gemma 4 延续 Gemma 许可证,允许商业使用,但有以下限制:
| 条款 | 内容 |
|---|---|
| 月活限制 | 超 1 亿需单独申请 |
| 禁止用途 | 大规模人脸识别系统 |
| 标注要求 | 产品中需标注使用 Gemma 模型 |
| 对比 | Llama 4 限制更严(7 亿门槛),Qwen/Mistral 无限制 |
相比完全开放的 Apache 2.0 仍有差距,但对于绝大多数开发者和企业来说,1 亿月活的门槛几乎不会触达。真正的问题在于——Google 随时可以修改协议条款,这种不确定性是选择 Gemma 时需要权衡的风险。
行业影响
Gemma 4 的发布在三个维度上推动行业前进:
1. 开源质量持续逼近闭源。 27B 模型在多个基准上已接近 GPT-4 级别表现。当开源模型的”够用”和闭源模型的”优秀”之间差距从代际缩小到百分点时,选择闭源的理由就少了一个。
2. 多模态成为标配而非加分项。 当 2B 模型都原生支持视觉理解时,纯文本模型的时代基本宣告结束。这不仅仅是功能增加,而是交互范式的根本转变——未来的 LLM 默认就是多模态的。
3. 128K 上下文民主化。 曾经是闭源旗舰(GPT-4、Claude)的专属能力,现在开源模型也能做到。长上下文不是锦上添花,是代码理解、文档分析、多轮对话的基础能力。
写在最后
Gemma 4 最值得关注的不是某个单点分数,而是它的全面性——多模态、长上下文、多尺寸、高效率、完整生态,每一项都做到了第一梯队。当一个开源模型不再需要你”忍受”它的短板时,选择闭源模型的理由就少了一个。
在开源模型竞赛日益激烈的 2026 年,Gemma 4 用实力证明了一点:开放并不意味着妥协。但 1 亿月活的协议门槛和 Google 随时修约的可能,提醒我们——真正的开源,不是一家公司的恩赐。