2026 年 4 月,Google DeepMind 发布 Gemma 4 系列开源模型——从纯文本进化为原生多模态,引入 MoE 和 Thinking 模式,上下文窗口扩展到 128K-256K。更关键的是,所有规格都已在 Ollama 上架,ollama run gemma4 一条命令即可启动。
Ollama 官网:ollama.com · Ollama GitHub:github.com/ollama/ollama · Gemma 4 模型页:ollama.com/library/gemma4 · Google 官方发布页:ai.google.dev/gemma
这个模型是什么
Gemma 4 不再是简单的”小中大”三档,而是 Dense + MoE 双架构并行——四个规格覆盖从笔记本到服务器的完整部署场景:
| 模型 | 标签 | 参数量 | 架构 | 上下文 | 模态 | 模型文件大小 |
|---|---|---|---|---|---|---|
| E2B | gemma4:e2b | 2.3B effective (5.1B 含嵌入) | Dense | 128K | 文本+图像+音频 | 7.2GB |
| E4B | gemma4:e4b | 4.5B effective (8B 含嵌入) | Dense | 128K | 文本+图像+音频 | 9.6GB |
| 26B | gemma4:26b | 25.2B total / 3.8B active | MoE (8/128 experts) | 256K | 文本+图像 | 18GB |
| 31B | gemma4:31b | 30.7B | Dense | 256K | 文本+图像 | 20GB |
基本信息:
| 项目 | 内容 |
|---|---|
| 开发方 | Google DeepMind |
| 开源协议 | Gemma License(月活 > 1 亿需申请) |
| 默认拉取 | E4B(9.6GB),适合大多数消费级设备 |
| 量化方式 | Ollama 默认 Q4_K_M,显存占用约为模型文件 60-70% |
| 依赖 | Ollama ≥ 0.5.0 |
三个值得关注的数字:
- 26B MoE 总参数 25.2B,但每次推理只激活 3.8B——显存占用远低于同参数量的 Dense 模型
- E2B 打败上代 Gemma 3 27B — MMLU Pro 60.0% vs 67.6%,AIME 2026 37.5% vs 20.8%
- 31B 在 MMLU Pro 达到 85.2%,GPQA Diamond 84.3%,已逼近闭源模型水平
26B MoE 的意义不在于”参数多大”,而在于用 3.8B 的推理成本跑出了接近 31B 的质量——这是 MoE 架构第一次在消费级硬件上兑现了”花小钱办大事”的承诺。
它能干什么
多模态推理
Gemma 4 原生支持图像和音频输入(E2B/E4B 支持音频,26B/31B 仅图像),不需要外挂视觉编码器,视觉信息和文本 token 在 Transformer 每一层联合计算:
# 命令行传入图片
ollama run gemma4 "分析这张图表的趋势" ./chart.png
# Python API 传入图片
import ollama
response = ollama.chat(
model='gemma4',
messages=[{
'role': 'user',
'content': '描述这张图片',
'images': ['photo.jpg']
}]
)
print(response.message.content)
图片分辨率通过视觉 token 预算控制:
| Token 预算 | 适用场景 |
|---|---|
| 70 | 图片分类、标签生成 |
| 140 | 快速描述 |
| 280 | 通用场景(默认) |
| 560 | 文档解析 |
| 1120 | OCR、精细文字识别 |
Thinking 思考模式
Gemma 4 最强的新特性:可配置的思考模式。开启后模型先输出内部推理过程,再给出最终答案。通过 <|think|> 标记控制:
ollama create gemma4-think -f - <<EOF
FROM gemma4:e4b
SYSTEM """<|think|>
你是一个数学推理助手。在回答之前先仔细思考。"""
EOF
运行后输出包含思考过程:
>>> 一个房间里有3个开关,控制隔壁房间的3盏灯...
<|channel>thought
让我分析这个经典逻辑谜题...
首先打开开关1,等5分钟...
然后关闭开关1,打开开关2...
<channel|>
进入隔壁房间后:
1. 亮着的灯对应开关2
2. 摸起来热的灯对应开关1
3. 又凉又灭的灯对应开关3
注意事项:E2B/E4B 关闭思考时不输出空标签;26B/31B 即使关闭仍输出空 <|channel>thought<channel|> 标签;多轮对话历史只保留最终答案。
API 集成
Ollama 默认在 http://localhost:11434 提供 OpenAI 兼容 API,任何支持 OpenAI API 的工具可直接对接。API 文档见 Ollama 官方文档。
# cURL 调用
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4",
"messages": [
{"role": "system", "content": "你是翻译助手,将中文翻译为英文"},
{"role": "user", "content": "今天天气真好"}
],
"temperature": 1.0,
"top_p": 0.95
}'
# Python(OpenAI SDK)
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
model="gemma4",
messages=[
{"role": "system", "content": "你是一个代码审查助手"},
{"role": "user", "content": "审查这段代码:\n```python\ndef add(a, b): return a + b\n```"}
],
temperature=1.0,
top_p=0.95
)
print(response.choices[0].message.content)
接入编程工具
Ollama 支持 Claude Code、Codex、OpenCode 等 Agentic 编程工具直接调用 Gemma 4——用 31B 替代 Claude/GPT 作为代码助手,代码不离开本地:
# Claude Code
ollama launch claude --model gemma4
# OpenCode
ollama launch opencode --model gemma4
# Codex
ollama launch codex --model gemma4
怎么部署
环境要求
硬件最低配置:
| 模型 | 最低内存 | 推荐 GPU 显存 | 可用 CPU 运行 |
|---|---|---|---|
| E2B | 8GB | 4GB+ | 是(慢但可用) |
| E4B | 8GB | 6GB+ | 是(慢但可用) |
| 26B | 16GB | 12GB+ | 勉强(极慢) |
| 31B | 32GB | 16GB+ | 否(不实用) |
软件要求:macOS 12+ / Linux / Windows 10+,Ollama ≥ 0.5.0。
安装 Ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# macOS — Homebrew
brew install ollama
# 或从 https://ollama.com/download 下载安装包
# Windows
# 从 https://ollama.com/download 下载安装包
更多安装方式见 Ollama 官方下载页。
确认版本:
ollama --version
# 应输出 0.5.x 或更高
启动服务(Linux 需手动启动,macOS/Windows 安装后自动运行):
ollama serve
拉取模型
# 轻量体验 — 7.2GB,笔记本就能跑
ollama pull gemma4:e2b
# 默认推荐 — 9.6GB,消费级 GPU 最佳选择
ollama pull gemma4
# 高性能 MoE — 18GB,显存 12GB+ 的 GPU
ollama pull gemma4:26b
# 旗舰 Dense — 20GB,需要 16GB+ 显存
ollama pull gemma4:31b
拉取速度取决于网络,国内建议开代理或使用镜像。模型文件存储在 ~/.ollama/models 目录。所有可用模型详见 Ollama 模型库。
验证部署
# 命令行单次推理
ollama run gemma4 "1+1等于几?只回答数字"
# 预期输出:2
# 图像理解
ollama run gemma4 "描述这张图片的内容" /path/to/image.jpg
看到合理回复,部署完成。
怎么使用
文本对话
# 交互式对话
ollama run gemma4
# 指定规格
ollama run gemma4:26b
ollama run gemma4:31b
进入交互界面后直接输入问题,/bye 退出。
自定义系统提示
Gemma 4 原生支持 system 角色,在 Modelfile 中自定义:
ollama create my-gemma4 -f - <<EOF
FROM gemma4:e4b
SYSTEM """
你是一个专业的中文技术助手。回答要简洁、准确,使用 Markdown 格式。
"""
EOF
ollama run my-gemma4
采样参数
Google 官方推荐配置(适用于所有规格):
{
"temperature": 1.0,
"top_p": 0.95,
"top_k": 64
}
和常见的 temperature=0.7 不同,Gemma 4 在 temperature=1.0 下表现最佳——训练过程针对此温度做了校准,降低温度反而可能导致输出退化。
基准表现与竞品对比
实测性能
M2 Pro 16GB MacBook Pro — E4B(9.6GB):
| 指标 | 数值 |
|---|---|
| 首次加载时间 | ~3s |
| 生成速度 | ~18 tokens/s |
| 中文质量 | 流畅自然,无明显翻译腔 |
| 上下文 8K 以内 | 速度稳定 |
| 上下文 32K+ | 明显变慢,约 8 tokens/s |
RTX 4070 (12GB) — 26B MoE(18GB,部分 offload 到内存):
| 指标 | 数值 |
|---|---|
| 生成速度 | ~12 tokens/s |
| 思考模式输出 | 约 200-500 tokens 思考后给答案 |
| 多模态理解 | 图表分析准确率高 |
与竞品对比
| 维度 | Gemma 4 E4B | Qwen 2.5 7B | Llama 4 8B |
|---|---|---|---|
| 模型大小 | 9.6GB | ~5GB | ~5GB |
| 中文能力 | 优秀 | 优秀 | 一般 |
| 多模态 | 原生图像+音频 | 部分变体支持 | 原生图像 |
| 思考模式 | 有 | 有(QwQ) | 有 |
| Ollama 开箱即用 | 是 | 是 | 是 |
Gemma 4 的优势在于同等参数量下多模态+思考模式一步到位,不需要额外装视觉编码器或切换模型。劣势是模型文件较大——E4B 9.6GB vs 竞品 5GB 左右,内存占用更高。
26B MoE 是这代最值得关注的规格:总参数 25.2B 但只激活 3.8B,MMLU Pro 82.6% 接近 31B 的 85.2%,性价比极高。GPU 有 12-16GB 显存的用户,26B 是最佳选择。
使用感受
部署体验:Ollama 一条命令拉取模型、一条命令启动对话,整个流程不超过 5 分钟。和手动下载权重文件、写推理脚本的传统方式相比,体验差距是”开箱即用”和”折腾半天才跑起来”的区别。
中文质量:E4B 的中文输出流畅自然,没有明显的翻译腔。在技术问答、代码解释、文本摘要等场景下,和 Qwen 2.5 7B 处于同一水准,显著优于 Llama 4 8B。
模型文件的代价:E4B 9.6GB 的模型文件确实比同级竞品大,第一次拉取需要等待更长时间,内存占用也更高。如果内存紧张(8GB 机器),E2B 是更务实的选择。
适合谁:
- 想在本地跑多模态模型的开发者 — E4B 一张卡搞定
- 需要中文+英文双语能力的场景 — Gemma 4 中文质量显著优于 Llama 系列
- 代码隐私要求高的团队 — 31B + Claude Code 本地闭环
- 资源受限设备 — E2B 7.2GB 几乎任何设备都能跑
不足:31B 不支持音频输入;256K 上下文在本地硬件上实际可用性有限(需要 ~64GB 内存);Gemma 许可证对月活 1 亿以上的产品有限制,详见 Gemma 许可证全文。
Gemma 4 + Ollama 的组合,意义不在于”又多了一个本地模型可选”,而在于让多模态+思考模式的部署成本从”需要工程师折腾一天”降到了”一条命令等五分钟”。当部署门槛低到和安装一个 App 一样时,本地 AI 才真正从极客玩具变成了日常工具。