Gemma 4 本地部署：Ollama 一条命令从安装到推理

2026 年 4 月，Google DeepMind 发布 Gemma 4 系列开源模型——从纯文本进化为原生多模态，引入 MoE 和 Thinking 模式，上下文窗口扩展到 128K-256K。更关键的是，所有规格都已在 Ollama 上架，ollama run gemma4 一条命令即可启动。

Ollama 官网：ollama.com · Ollama GitHub：github.com/ollama/ollama · Gemma 4 模型页：ollama.com/library/gemma4 · Google 官方发布页：ai.google.dev/gemma

这个模型是什么

Gemma 4 不再是简单的”小中大”三档，而是 Dense + MoE 双架构并行——四个规格覆盖从笔记本到服务器的完整部署场景：

模型	标签	参数量	架构	上下文	模态	模型文件大小
E2B	gemma4:e2b	2.3B effective (5.1B 含嵌入)	Dense	128K	文本+图像+音频	7.2GB
E4B	gemma4:e4b	4.5B effective (8B 含嵌入)	Dense	128K	文本+图像+音频	9.6GB
26B	gemma4:26b	25.2B total / 3.8B active	MoE (8/128 experts)	256K	文本+图像	18GB
31B	gemma4:31b	30.7B	Dense	256K	文本+图像	20GB

基本信息：

项目	内容
开发方	Google DeepMind
开源协议	Gemma License（月活 > 1 亿需申请）
默认拉取	E4B（9.6GB），适合大多数消费级设备
量化方式	Ollama 默认 Q4_K_M，显存占用约为模型文件 60-70%
依赖	Ollama ≥ 0.5.0

三个值得关注的数字：

26B MoE 总参数 25.2B，但每次推理只激活 3.8B——显存占用远低于同参数量的 Dense 模型
E2B 打败上代 Gemma 3 27B — MMLU Pro 60.0% vs 67.6%，AIME 2026 37.5% vs 20.8%
31B 在 MMLU Pro 达到 85.2%，GPQA Diamond 84.3%，已逼近闭源模型水平

26B MoE 的意义不在于”参数多大”，而在于用 3.8B 的推理成本跑出了接近 31B 的质量——这是 MoE 架构第一次在消费级硬件上兑现了”花小钱办大事”的承诺。

它能干什么

多模态推理

Gemma 4 原生支持图像和音频输入（E2B/E4B 支持音频，26B/31B 仅图像），不需要外挂视觉编码器，视觉信息和文本 token 在 Transformer 每一层联合计算：

# 命令行传入图片
ollama run gemma4 "分析这张图表的趋势" ./chart.png

# Python API 传入图片
import ollama

response = ollama.chat(
    model='gemma4',
    messages=[{
        'role': 'user',
        'content': '描述这张图片',
        'images': ['photo.jpg']
    }]
)
print(response.message.content)

图片分辨率通过视觉 token 预算控制：

Token 预算	适用场景
70	图片分类、标签生成
140	快速描述
280	通用场景（默认）
560	文档解析
1120	OCR、精细文字识别

Thinking 思考模式

Gemma 4 最强的新特性：可配置的思考模式。开启后模型先输出内部推理过程，再给出最终答案。通过 <|think|> 标记控制：

ollama create gemma4-think -f - <<EOF
FROM gemma4:e4b

SYSTEM """<|think|>
你是一个数学推理助手。在回答之前先仔细思考。"""
EOF

运行后输出包含思考过程：

>>> 一个房间里有3个开关，控制隔壁房间的3盏灯...

<|channel>thought
让我分析这个经典逻辑谜题...
首先打开开关1，等5分钟...
然后关闭开关1，打开开关2...
<channel|>

进入隔壁房间后：
1. 亮着的灯对应开关2
2. 摸起来热的灯对应开关1
3. 又凉又灭的灯对应开关3

注意事项：E2B/E4B 关闭思考时不输出空标签；26B/31B 即使关闭仍输出空 <|channel>thought<channel|> 标签；多轮对话历史只保留最终答案。

API 集成

Ollama 默认在 http://localhost:11434 提供 OpenAI 兼容 API，任何支持 OpenAI API 的工具可直接对接。API 文档见 Ollama 官方文档。

# cURL 调用
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "messages": [
      {"role": "system", "content": "你是翻译助手，将中文翻译为英文"},
      {"role": "user", "content": "今天天气真好"}
    ],
    "temperature": 1.0,
    "top_p": 0.95
  }'

# Python（OpenAI SDK）
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

response = client.chat.completions.create(
    model="gemma4",
    messages=[
        {"role": "system", "content": "你是一个代码审查助手"},
        {"role": "user", "content": "审查这段代码：\n```python\ndef add(a, b): return a + b\n```"}
    ],
    temperature=1.0,
    top_p=0.95
)
print(response.choices[0].message.content)

接入编程工具

Ollama 支持 Claude Code、Codex、OpenCode 等 Agentic 编程工具直接调用 Gemma 4——用 31B 替代 Claude/GPT 作为代码助手，代码不离开本地：

# Claude Code
ollama launch claude --model gemma4

# OpenCode
ollama launch opencode --model gemma4

# Codex
ollama launch codex --model gemma4

怎么部署

环境要求

硬件最低配置：

模型	最低内存	推荐 GPU 显存	可用 CPU 运行
E2B	8GB	4GB+	是（慢但可用）
E4B	8GB	6GB+	是（慢但可用）
26B	16GB	12GB+	勉强（极慢）
31B	32GB	16GB+	否（不实用）

软件要求：macOS 12+ / Linux / Windows 10+，Ollama ≥ 0.5.0。

安装 Ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# macOS — Homebrew
brew install ollama
# 或从 https://ollama.com/download 下载安装包

# Windows
# 从 https://ollama.com/download 下载安装包

更多安装方式见 Ollama 官方下载页。

确认版本：

ollama --version
# 应输出 0.5.x 或更高

启动服务（Linux 需手动启动，macOS/Windows 安装后自动运行）：

ollama serve

拉取模型

# 轻量体验 — 7.2GB，笔记本就能跑
ollama pull gemma4:e2b

# 默认推荐 — 9.6GB，消费级 GPU 最佳选择
ollama pull gemma4

# 高性能 MoE — 18GB，显存 12GB+ 的 GPU
ollama pull gemma4:26b

# 旗舰 Dense — 20GB，需要 16GB+ 显存
ollama pull gemma4:31b

拉取速度取决于网络，国内建议开代理或使用镜像。模型文件存储在 ~/.ollama/models 目录。所有可用模型详见 Ollama 模型库。

验证部署

# 命令行单次推理
ollama run gemma4 "1+1等于几？只回答数字"
# 预期输出：2

# 图像理解
ollama run gemma4 "描述这张图片的内容" /path/to/image.jpg

看到合理回复，部署完成。

怎么使用

文本对话

# 交互式对话
ollama run gemma4

# 指定规格
ollama run gemma4:26b
ollama run gemma4:31b

进入交互界面后直接输入问题，/bye 退出。

自定义系统提示

Gemma 4 原生支持 system 角色，在 Modelfile 中自定义：

ollama create my-gemma4 -f - <<EOF
FROM gemma4:e4b

SYSTEM """
你是一个专业的中文技术助手。回答要简洁、准确，使用 Markdown 格式。
"""
EOF

ollama run my-gemma4

采样参数

Google 官方推荐配置（适用于所有规格）：

{
  "temperature": 1.0,
  "top_p": 0.95,
  "top_k": 64
}

和常见的 temperature=0.7 不同，Gemma 4 在 temperature=1.0 下表现最佳——训练过程针对此温度做了校准，降低温度反而可能导致输出退化。

基准表现与竞品对比

实测性能

M2 Pro 16GB MacBook Pro — E4B（9.6GB）：

指标	数值
首次加载时间	~3s
生成速度	~18 tokens/s
中文质量	流畅自然，无明显翻译腔
上下文 8K 以内	速度稳定
上下文 32K+	明显变慢，约 8 tokens/s

RTX 4070 (12GB) — 26B MoE（18GB，部分 offload 到内存）：

指标	数值
生成速度	~12 tokens/s
思考模式输出	约 200-500 tokens 思考后给答案
多模态理解	图表分析准确率高

与竞品对比

维度	Gemma 4 E4B	Qwen 2.5 7B	Llama 4 8B
模型大小	9.6GB	~5GB	~5GB
中文能力	优秀	优秀	一般
多模态	原生图像+音频	部分变体支持	原生图像
思考模式	有	有（QwQ）	有
Ollama 开箱即用	是	是	是

Gemma 4 的优势在于同等参数量下多模态+思考模式一步到位，不需要额外装视觉编码器或切换模型。劣势是模型文件较大——E4B 9.6GB vs 竞品 5GB 左右，内存占用更高。

26B MoE 是这代最值得关注的规格：总参数 25.2B 但只激活 3.8B，MMLU Pro 82.6% 接近 31B 的 85.2%，性价比极高。GPU 有 12-16GB 显存的用户，26B 是最佳选择。

使用感受

部署体验：Ollama 一条命令拉取模型、一条命令启动对话，整个流程不超过 5 分钟。和手动下载权重文件、写推理脚本的传统方式相比，体验差距是”开箱即用”和”折腾半天才跑起来”的区别。

中文质量：E4B 的中文输出流畅自然，没有明显的翻译腔。在技术问答、代码解释、文本摘要等场景下，和 Qwen 2.5 7B 处于同一水准，显著优于 Llama 4 8B。

模型文件的代价：E4B 9.6GB 的模型文件确实比同级竞品大，第一次拉取需要等待更长时间，内存占用也更高。如果内存紧张（8GB 机器），E2B 是更务实的选择。

适合谁：

想在本地跑多模态模型的开发者 — E4B 一张卡搞定
需要中文+英文双语能力的场景 — Gemma 4 中文质量显著优于 Llama 系列
代码隐私要求高的团队 — 31B + Claude Code 本地闭环
资源受限设备 — E2B 7.2GB 几乎任何设备都能跑

不足：31B 不支持音频输入；256K 上下文在本地硬件上实际可用性有限（需要 ~64GB 内存）；Gemma 许可证对月活 1 亿以上的产品有限制，详见 Gemma 许可证全文。

Gemma 4 + Ollama 的组合，意义不在于”又多了一个本地模型可选”，而在于让多模态+思考模式的部署成本从”需要工程师折腾一天”降到了”一条命令等五分钟”。当部署门槛低到和安装一个 App 一样时，本地 AI 才真正从极客玩具变成了日常工具。

Previous GPT-5.4：让 AI 学会说「我不确定」 Next AstrBot：30K Star 的开源 IM 聊天机器人，一条命令接入 15 个聊天平台