写于 2026 年 5 月 | 数据截至 2026 年 4 月
2026 年 4 月 2 日,Google DeepMind 发布了 Gemma 4。
如果只看”开源新模型发布”这个动作,你可能觉得没什么特别——每隔几个月总有人发一个。但 Gemma 4 有几个地方值得认真对待:它不只是性能提升,它在某些关键维度上改变了”开源大模型能做什么”这个命题本身。
先说一个数字
Gemma 系列自第一代发布以来,开发者下载量已经超过 4 亿次,社区衍生变体突破 10 万个。这是一个生态规模的信号,不只是技术指标。
Gemma 4 基于与 Gemini 3 相同的研究基础构建,同时首次采用 Apache 2.0 协议开放——后面会专门讲这个变化的含义。
四种尺寸,覆盖从浏览器到服务器
Gemma 4 这次的产品线设计很有意思,不是单一旗舰模型,而是针对不同硬件场景设计了四种尺寸:
| 型号 | 架构 | 参数量 | 上下文 | 典型场景 |
|---|---|---|---|---|
| E2B | Dense | ~2.3B 有效 | 128K | 边缘设备、浏览器端推理 |
| E4B | Dense | ~4B 有效 | 128K | 手机、Raspberry Pi |
| 26B A4B | MoE | 3.8B 激活 / 26B 总量 | 256K | 消费级 GPU,高效推理 |
| 31B | Dense | 31B | 256K | 工作站、服务器 |
其中最值得关注的是 26B A4B 这个 MoE 模型。它包含 128 个微型专家,每次推理只激活其中 8 个——换句话说,你用 3.8B 的计算量,拿到接近更大密集模型的效果。在显存和算力都有限的场景里,这是真正的工程杠杆。
基准测试:不是”提升了一点”,是结构性跨越
Gemma 4 相比上一代(Gemma 3 27B)的提升幅度,很难用”进步”这个词来描述,更接近”断层”:
| 基准 | Gemma 3 27B | Gemma 4 31B | 提升 |
|---|---|---|---|
| AIME 2026(数学竞赛) | 20.8% | 89.2% | +330% |
| LiveCodeBench v6(编程) | 29.1% | 80.0% | +175% |
| BigBench Extra Hard | 19.3% | 74.4% | +285% |
| Agentic Tool Use(τ2-bench) | 6.6% | 86.4% | +1200% |
最后那个 Agentic Tool Use 的数字尤其有意思:+1200%,从 6.6% 到 86.4%。这意味着 Gemma 4 在 Agent 场景下的工具调用能力,和上一代已经不在一个量级了。
MoE 版本(26B A4B)在数学上得到 88.3%,与旗舰 31B 仅差 0.9 个百分点。在 Arena.ai ELO 上,两者也只差 11 分(1441 vs 1452)。考虑到 MoE 版本的实际计算开销远更低,这个效率比很难被忽视。
Apache 2.0:不是小事
Gemma 前几代用的是一套自定义许可证,有月活用户上限、有收入门槛、有各种限制。商业使用需要法务审查,部分场景甚至需要和 Google 单独谈。
Gemma 4 改成了 Apache 2.0。这意味着:
- 商业部署无需特殊协议,直接用
- 可以自由修改权重、分发、微调
- 没有用户规模或收入门槛
对开发者个人来说可能感知不强,但对任何想在产品里私有化部署模型的公司,这个变化省掉的不只是钱,还有走法务流程的时间成本。这是 Gemma 4 最重要的非技术突破之一。
多模态:四种尺寸全覆盖
Gemma 4 是首批全系列原生多模态的 Gemma 模型,能力涵盖:
- 文本:支持 140+ 语言
- 图像:目标检测、文档/PDF 解析、图表理解、多语言 OCR、手写识别
- 视频:通过帧序列分析处理视频内容
- 音频:E2B / E4B 小型版本原生支持音频输入,不需要独立的语音识别模块
更有实用价值的是交错多模态输入——在单次提示里混合文本和图像,没有顺序限制。这在实际应用场景里(比如文档理解、图文混合分析)比”支持图像”这个描述要有用得多。
推理能力和 Agent 支持
两个值得关注的内置能力:
思维链推理(Thinking Mode):模型可以在生成最终答案前进行最多 4000+ token 的逐步推理。这不是外挂的 CoT 技巧,而是模型内置支持的推理模式。对需要解题步骤可见、可审查的场景很有价值。
原生函数调用(Function Calling):内置工具调用支持,可以直接集成外部工具构建 Agent 工作流,不需要额外的框架层包装。结合上面那个 86.4% 的 Agentic Tool Use 得分,Gemma 4 在 Agent 场景下的实用性有了实质性依据。
部署生态
发布当天即支持的工具链:
- 推理引擎:vLLM、llama.cpp、MLX、Ollama、LM Studio、SGLang
- 训练框架:Hugging Face Transformers/TRL、Keras、MaxText
- 硬件加速:NVIDIA NIM(Blackwell)、AMD ROCm、Google TPU
- 云端:Vertex AI、Cloud Run、GKE——支持 Serverless 到完全自托管的各种部署方式
小型模型(E2B / E4B)专门与高通、联发科联合优化,支持 Android AICore、Raspberry Pi、Jetson Orin Nano,以及 Chrome 浏览器端推理。
现实局限性,也要讲清楚
不是每个场景都适合 Gemma 4,几个实际限制:
显存门槛:旗舰 31B 模型在 16-bit 精度下需要约 24GB 显存,超出了大多数消费级显卡的上限。MoE 版本在这方面友好得多,但也需要认真规划硬件配置。
上下文窗口:最大 256K Token。如果你的场景需要处理超长文档(比如 Meta Llama 4 Scout 支持的 10M Token 上下文),Gemma 4 目前不是最优选。
开放程度:严格来说,Gemma 4 是”开放权重”(Open-Weight),不是”完全开源”(Full Open-Source)。训练数据和完整训练代码没有公开,这在一些需要完整可审计链路的场景下是个限制。
实际该怎么选
如果你在评估是否在项目里使用 Gemma 4,一个简单的决策逻辑:
- 设备端 / 边缘场景:E2B 或 E4B,离线运行,低延迟,唯一的问题是算力确实有限
- 消费级 GPU(12-16GB 显存):26B MoE 是最平衡的选择,效果接近旗舰,计算成本低得多
- 高性能场景 / 服务器部署:31B Dense,目前开源模型里综合性价比最高的选项之一
- 企业私有化部署:Apache 2.0 + Google Cloud 主权云方案,合规成本比之前低很多
最后
开源大模型的竞争在 2026 年明显进入了一个新阶段。Gemma 4 不是最大的,上下文也不是最长的,但它在一个关键维度上做了正确的事:把能力、效率、许可证三件事同时推到了一个新的水位线。
对于大多数开发者来说,“本地部署一个真正好用的多模态 Agent 模型”这件事,在 Gemma 4 发布之后变得更加可行了。
参考来源:Google DeepMind Gemma 4 官方页面、Google AI for Developers、Google Cloud Blog、Medium Gemma 4 Benchmarks(2026.04)、Interconnects.ai、MindStudio、DEV Community