Google Gemma 4：一次真正意义上的代际跨越

写于 2026 年 5 月 | 数据截至 2026 年 4 月

2026 年 4 月 2 日，Google DeepMind 发布了 Gemma 4。

如果只看”开源新模型发布”这个动作，你可能觉得没什么特别——每隔几个月总有人发一个。但 Gemma 4 有几个地方值得认真对待：它不只是性能提升，它在某些关键维度上改变了”开源大模型能做什么”这个命题本身。

先说一个数字

Gemma 系列自第一代发布以来，开发者下载量已经超过 4 亿次，社区衍生变体突破 10 万个。这是一个生态规模的信号，不只是技术指标。

Gemma 4 基于与 Gemini 3 相同的研究基础构建，同时首次采用 Apache 2.0 协议开放——后面会专门讲这个变化的含义。

四种尺寸，覆盖从浏览器到服务器

Gemma 4 这次的产品线设计很有意思，不是单一旗舰模型，而是针对不同硬件场景设计了四种尺寸：

型号	架构	参数量	上下文	典型场景
E2B	Dense	~2.3B 有效	128K	边缘设备、浏览器端推理
E4B	Dense	~4B 有效	128K	手机、Raspberry Pi
26B A4B	MoE	3.8B 激活 / 26B 总量	256K	消费级 GPU，高效推理
31B	Dense	31B	256K	工作站、服务器

其中最值得关注的是 26B A4B 这个 MoE 模型。它包含 128 个微型专家，每次推理只激活其中 8 个——换句话说，你用 3.8B 的计算量，拿到接近更大密集模型的效果。在显存和算力都有限的场景里，这是真正的工程杠杆。

基准测试：不是”提升了一点”，是结构性跨越

Gemma 4 相比上一代（Gemma 3 27B）的提升幅度，很难用”进步”这个词来描述，更接近”断层”：

基准	Gemma 3 27B	Gemma 4 31B	提升
AIME 2026（数学竞赛）	20.8%	89.2%	+330%
LiveCodeBench v6（编程）	29.1%	80.0%	+175%
BigBench Extra Hard	19.3%	74.4%	+285%
Agentic Tool Use（τ2-bench）	6.6%	86.4%	+1200%

最后那个 Agentic Tool Use 的数字尤其有意思：+1200%，从 6.6% 到 86.4%。这意味着 Gemma 4 在 Agent 场景下的工具调用能力，和上一代已经不在一个量级了。

MoE 版本（26B A4B）在数学上得到 88.3%，与旗舰 31B 仅差 0.9 个百分点。在 Arena.ai ELO 上，两者也只差 11 分（1441 vs 1452）。考虑到 MoE 版本的实际计算开销远更低，这个效率比很难被忽视。

Apache 2.0：不是小事

Gemma 前几代用的是一套自定义许可证，有月活用户上限、有收入门槛、有各种限制。商业使用需要法务审查，部分场景甚至需要和 Google 单独谈。

Gemma 4 改成了 Apache 2.0。这意味着：

商业部署无需特殊协议，直接用
可以自由修改权重、分发、微调
没有用户规模或收入门槛

对开发者个人来说可能感知不强，但对任何想在产品里私有化部署模型的公司，这个变化省掉的不只是钱，还有走法务流程的时间成本。这是 Gemma 4 最重要的非技术突破之一。

多模态：四种尺寸全覆盖

Gemma 4 是首批全系列原生多模态的 Gemma 模型，能力涵盖：

文本：支持 140+ 语言
图像：目标检测、文档/PDF 解析、图表理解、多语言 OCR、手写识别
视频：通过帧序列分析处理视频内容
音频：E2B / E4B 小型版本原生支持音频输入，不需要独立的语音识别模块

更有实用价值的是交错多模态输入——在单次提示里混合文本和图像，没有顺序限制。这在实际应用场景里（比如文档理解、图文混合分析）比”支持图像”这个描述要有用得多。

推理能力和 Agent 支持

两个值得关注的内置能力：

思维链推理（Thinking Mode）：模型可以在生成最终答案前进行最多 4000+ token 的逐步推理。这不是外挂的 CoT 技巧，而是模型内置支持的推理模式。对需要解题步骤可见、可审查的场景很有价值。

原生函数调用（Function Calling）：内置工具调用支持，可以直接集成外部工具构建 Agent 工作流，不需要额外的框架层包装。结合上面那个 86.4% 的 Agentic Tool Use 得分，Gemma 4 在 Agent 场景下的实用性有了实质性依据。

部署生态

发布当天即支持的工具链：

推理引擎：vLLM、llama.cpp、MLX、Ollama、LM Studio、SGLang
训练框架：Hugging Face Transformers/TRL、Keras、MaxText
硬件加速：NVIDIA NIM（Blackwell）、AMD ROCm、Google TPU
云端：Vertex AI、Cloud Run、GKE——支持 Serverless 到完全自托管的各种部署方式

小型模型（E2B / E4B）专门与高通、联发科联合优化，支持 Android AICore、Raspberry Pi、Jetson Orin Nano，以及 Chrome 浏览器端推理。

现实局限性，也要讲清楚

不是每个场景都适合 Gemma 4，几个实际限制：

显存门槛：旗舰 31B 模型在 16-bit 精度下需要约 24GB 显存，超出了大多数消费级显卡的上限。MoE 版本在这方面友好得多，但也需要认真规划硬件配置。

上下文窗口：最大 256K Token。如果你的场景需要处理超长文档（比如 Meta Llama 4 Scout 支持的 10M Token 上下文），Gemma 4 目前不是最优选。

开放程度：严格来说，Gemma 4 是”开放权重”（Open-Weight），不是”完全开源”（Full Open-Source）。训练数据和完整训练代码没有公开，这在一些需要完整可审计链路的场景下是个限制。

实际该怎么选

如果你在评估是否在项目里使用 Gemma 4，一个简单的决策逻辑：

设备端 / 边缘场景：E2B 或 E4B，离线运行，低延迟，唯一的问题是算力确实有限
消费级 GPU（12-16GB 显存）：26B MoE 是最平衡的选择，效果接近旗舰，计算成本低得多
高性能场景 / 服务器部署：31B Dense，目前开源模型里综合性价比最高的选项之一
企业私有化部署：Apache 2.0 + Google Cloud 主权云方案，合规成本比之前低很多

最后

开源大模型的竞争在 2026 年明显进入了一个新阶段。Gemma 4 不是最大的，上下文也不是最长的，但它在一个关键维度上做了正确的事：把能力、效率、许可证三件事同时推到了一个新的水位线。

对于大多数开发者来说，“本地部署一个真正好用的多模态 Agent 模型”这件事，在 Gemma 4 发布之后变得更加可行了。

参考来源：Google DeepMind Gemma 4 官方页面、Google AI for Developers、Google Cloud Blog、Medium Gemma 4 Benchmarks（2026.04）、Interconnects.ai、MindStudio、DEV Community