Home / AI模型 / 2026.04.20

Gemma 4 本地部署:Ollama 一条命令从安装到推理

Google Gemma 4 全规格本地部署教程 — Ollama 一键拉取 E2B/E4B/26B/31B,环境要求、安装配置、多模态推理、Thinking 模式、API 集成全流程实测。

2026 年 4 月,Google DeepMind 发布 Gemma 4 系列开源模型——从纯文本进化为原生多模态,引入 MoE 和 Thinking 模式,上下文窗口扩展到 128K-256K。更关键的是,所有规格都已在 Ollama 上架,ollama run gemma4 一条命令即可启动。

Ollama 官网:ollama.com · Ollama GitHub:github.com/ollama/ollama · Gemma 4 模型页:ollama.com/library/gemma4 · Google 官方发布页:ai.google.dev/gemma

这个模型是什么

Gemma 4 不再是简单的”小中大”三档,而是 Dense + MoE 双架构并行——四个规格覆盖从笔记本到服务器的完整部署场景:

模型标签参数量架构上下文模态模型文件大小
E2Bgemma4:e2b2.3B effective (5.1B 含嵌入)Dense128K文本+图像+音频7.2GB
E4Bgemma4:e4b4.5B effective (8B 含嵌入)Dense128K文本+图像+音频9.6GB
26Bgemma4:26b25.2B total / 3.8B activeMoE (8/128 experts)256K文本+图像18GB
31Bgemma4:31b30.7BDense256K文本+图像20GB

基本信息:

项目内容
开发方Google DeepMind
开源协议Gemma License(月活 > 1 亿需申请)
默认拉取E4B(9.6GB),适合大多数消费级设备
量化方式Ollama 默认 Q4_K_M,显存占用约为模型文件 60-70%
依赖Ollama ≥ 0.5.0

三个值得关注的数字:

  • 26B MoE 总参数 25.2B,但每次推理只激活 3.8B——显存占用远低于同参数量的 Dense 模型
  • E2B 打败上代 Gemma 3 27B — MMLU Pro 60.0% vs 67.6%,AIME 2026 37.5% vs 20.8%
  • 31B 在 MMLU Pro 达到 85.2%,GPQA Diamond 84.3%,已逼近闭源模型水平

26B MoE 的意义不在于”参数多大”,而在于用 3.8B 的推理成本跑出了接近 31B 的质量——这是 MoE 架构第一次在消费级硬件上兑现了”花小钱办大事”的承诺。

它能干什么

多模态推理

Gemma 4 原生支持图像和音频输入(E2B/E4B 支持音频,26B/31B 仅图像),不需要外挂视觉编码器,视觉信息和文本 token 在 Transformer 每一层联合计算:

# 命令行传入图片
ollama run gemma4 "分析这张图表的趋势" ./chart.png
# Python API 传入图片
import ollama

response = ollama.chat(
    model='gemma4',
    messages=[{
        'role': 'user',
        'content': '描述这张图片',
        'images': ['photo.jpg']
    }]
)
print(response.message.content)

图片分辨率通过视觉 token 预算控制:

Token 预算适用场景
70图片分类、标签生成
140快速描述
280通用场景(默认)
560文档解析
1120OCR、精细文字识别

Thinking 思考模式

Gemma 4 最强的新特性:可配置的思考模式。开启后模型先输出内部推理过程,再给出最终答案。通过 <|think|> 标记控制:

ollama create gemma4-think -f - <<EOF
FROM gemma4:e4b

SYSTEM """<|think|>
你是一个数学推理助手。在回答之前先仔细思考。"""
EOF

运行后输出包含思考过程:

>>> 一个房间里有3个开关,控制隔壁房间的3盏灯...

<|channel>thought
让我分析这个经典逻辑谜题...
首先打开开关1,等5分钟...
然后关闭开关1,打开开关2...
<channel|>

进入隔壁房间后:
1. 亮着的灯对应开关2
2. 摸起来热的灯对应开关1
3. 又凉又灭的灯对应开关3

注意事项:E2B/E4B 关闭思考时不输出空标签;26B/31B 即使关闭仍输出空 <|channel>thought<channel|> 标签;多轮对话历史只保留最终答案。

API 集成

Ollama 默认在 http://localhost:11434 提供 OpenAI 兼容 API,任何支持 OpenAI API 的工具可直接对接。API 文档见 Ollama 官方文档

# cURL 调用
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "messages": [
      {"role": "system", "content": "你是翻译助手,将中文翻译为英文"},
      {"role": "user", "content": "今天天气真好"}
    ],
    "temperature": 1.0,
    "top_p": 0.95
  }'
# Python(OpenAI SDK)
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

response = client.chat.completions.create(
    model="gemma4",
    messages=[
        {"role": "system", "content": "你是一个代码审查助手"},
        {"role": "user", "content": "审查这段代码:\n```python\ndef add(a, b): return a + b\n```"}
    ],
    temperature=1.0,
    top_p=0.95
)
print(response.choices[0].message.content)

接入编程工具

Ollama 支持 Claude Code、Codex、OpenCode 等 Agentic 编程工具直接调用 Gemma 4——用 31B 替代 Claude/GPT 作为代码助手,代码不离开本地:

# Claude Code
ollama launch claude --model gemma4

# OpenCode
ollama launch opencode --model gemma4

# Codex
ollama launch codex --model gemma4

怎么部署

环境要求

硬件最低配置:

模型最低内存推荐 GPU 显存可用 CPU 运行
E2B8GB4GB+是(慢但可用)
E4B8GB6GB+是(慢但可用)
26B16GB12GB+勉强(极慢)
31B32GB16GB+否(不实用)

软件要求:macOS 12+ / Linux / Windows 10+,Ollama ≥ 0.5.0。

安装 Ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# macOS — Homebrew
brew install ollama
# 或从 https://ollama.com/download 下载安装包

# Windows
# 从 https://ollama.com/download 下载安装包

更多安装方式见 Ollama 官方下载页

确认版本:

ollama --version
# 应输出 0.5.x 或更高

启动服务(Linux 需手动启动,macOS/Windows 安装后自动运行):

ollama serve

拉取模型

# 轻量体验 — 7.2GB,笔记本就能跑
ollama pull gemma4:e2b

# 默认推荐 — 9.6GB,消费级 GPU 最佳选择
ollama pull gemma4

# 高性能 MoE — 18GB,显存 12GB+ 的 GPU
ollama pull gemma4:26b

# 旗舰 Dense — 20GB,需要 16GB+ 显存
ollama pull gemma4:31b

拉取速度取决于网络,国内建议开代理或使用镜像。模型文件存储在 ~/.ollama/models 目录。所有可用模型详见 Ollama 模型库

验证部署

# 命令行单次推理
ollama run gemma4 "1+1等于几?只回答数字"
# 预期输出:2

# 图像理解
ollama run gemma4 "描述这张图片的内容" /path/to/image.jpg

看到合理回复,部署完成。

怎么使用

文本对话

# 交互式对话
ollama run gemma4

# 指定规格
ollama run gemma4:26b
ollama run gemma4:31b

进入交互界面后直接输入问题,/bye 退出。

自定义系统提示

Gemma 4 原生支持 system 角色,在 Modelfile 中自定义:

ollama create my-gemma4 -f - <<EOF
FROM gemma4:e4b

SYSTEM """
你是一个专业的中文技术助手。回答要简洁、准确,使用 Markdown 格式。
"""
EOF
ollama run my-gemma4

采样参数

Google 官方推荐配置(适用于所有规格):

{
  "temperature": 1.0,
  "top_p": 0.95,
  "top_k": 64
}

和常见的 temperature=0.7 不同,Gemma 4 在 temperature=1.0 下表现最佳——训练过程针对此温度做了校准,降低温度反而可能导致输出退化。

基准表现与竞品对比

实测性能

M2 Pro 16GB MacBook Pro — E4B(9.6GB):

指标数值
首次加载时间~3s
生成速度~18 tokens/s
中文质量流畅自然,无明显翻译腔
上下文 8K 以内速度稳定
上下文 32K+明显变慢,约 8 tokens/s

RTX 4070 (12GB) — 26B MoE(18GB,部分 offload 到内存):

指标数值
生成速度~12 tokens/s
思考模式输出约 200-500 tokens 思考后给答案
多模态理解图表分析准确率高

与竞品对比

维度Gemma 4 E4BQwen 2.5 7BLlama 4 8B
模型大小9.6GB~5GB~5GB
中文能力优秀优秀一般
多模态原生图像+音频部分变体支持原生图像
思考模式有(QwQ)
Ollama 开箱即用

Gemma 4 的优势在于同等参数量下多模态+思考模式一步到位,不需要额外装视觉编码器或切换模型。劣势是模型文件较大——E4B 9.6GB vs 竞品 5GB 左右,内存占用更高。

26B MoE 是这代最值得关注的规格:总参数 25.2B 但只激活 3.8B,MMLU Pro 82.6% 接近 31B 的 85.2%,性价比极高。GPU 有 12-16GB 显存的用户,26B 是最佳选择。

使用感受

部署体验:Ollama 一条命令拉取模型、一条命令启动对话,整个流程不超过 5 分钟。和手动下载权重文件、写推理脚本的传统方式相比,体验差距是”开箱即用”和”折腾半天才跑起来”的区别。

中文质量:E4B 的中文输出流畅自然,没有明显的翻译腔。在技术问答、代码解释、文本摘要等场景下,和 Qwen 2.5 7B 处于同一水准,显著优于 Llama 4 8B。

模型文件的代价:E4B 9.6GB 的模型文件确实比同级竞品大,第一次拉取需要等待更长时间,内存占用也更高。如果内存紧张(8GB 机器),E2B 是更务实的选择。

适合谁

  • 想在本地跑多模态模型的开发者 — E4B 一张卡搞定
  • 需要中文+英文双语能力的场景 — Gemma 4 中文质量显著优于 Llama 系列
  • 代码隐私要求高的团队 — 31B + Claude Code 本地闭环
  • 资源受限设备 — E2B 7.2GB 几乎任何设备都能跑

不足:31B 不支持音频输入;256K 上下文在本地硬件上实际可用性有限(需要 ~64GB 内存);Gemma 许可证对月活 1 亿以上的产品有限制,详见 Gemma 许可证全文

Gemma 4 + Ollama 的组合,意义不在于”又多了一个本地模型可选”,而在于让多模态+思考模式的部署成本从”需要工程师折腾一天”降到了”一条命令等五分钟”。当部署门槛低到和安装一个 App 一样时,本地 AI 才真正从极客玩具变成了日常工具。