Gemma 4 — Google DeepMind最强开源模型
概述
Gemma 4是Google DeepMind发布的最新开源模型系列,基于Gemini 3研究和技术构建,主打"最大化每参数的智能"(intelligence-per-parameter)。这是Gemma系列迄今为止最重要的升级,在移动设备和PC上实现了前沿级别的智能水平。
核心能力
1. Agentic Workflows(代理工作流)
构建能够规划、导航应用并代表用户完成任务的自主代理,原生支持function calling。这是Gemma 4最关键的突破点。
2. 多模态推理
强大的音频和视觉理解能力,提供丰富的多模态支持。
3. 140种语言支持
创建超越翻译的多语言体验,理解文化语境。
4. 高效架构
可在自有硬件上运行,实现高效开发和部署。
性能基准测试
| 基准测试 | Gemma 4 31B | Gemma 4 26B | Gemma 4 2B | Gemma 3 27B |
|---|---|---|---|---|
| Arena AI (IT Thinking) | 1452 | 1441 | 1365 | — |
| MMMLU Multilingual | 85.2% | 82.6% | 69.4% | 67.6% |
| MMMU Pro (多模态) | 76.9% | 73.8% | 52.6% | 49.7% |
| AIME 2026 数学 | 89.2% | 88.3% | 42.5% | 20.8% |
| LiveCodeBench (编程) | 80.0% | 77.1% | 52.0% | 29.1% |
| τ2-bench (Agentic Tool Use) | 86.4% | 85.5% | 57.5% | 6.6% |
| GPQA Diamond (科学知识) | 84.3% | 82.3% | 58.6% | 42.4% |
关键洞察
τ2-bench 突破性提升
Gemma 4 31B在agentic tool use任务上达到86.4%,而Gemma 3仅为6.6%。这是质的飞跃,表明Google在构建能够实际执行多步骤任务的AI代理方面取得了重大进展。
数学和编程能力大幅提升
AIME 2026数学基准:Gemma 4 31B达到89.2%(vs 上代20.8%)。LiveCodeBench编程:80.0%(vs 上代29.1%)。
移动端优化
Gemma 4特别强调"maximum compute and memory efficiency",面向移动和物联网设备优化。这与苹果的On-Device AI战略形成直接竞争。
行业意义
- 开源LLM竞争加剧:Gemma 4的agentic capabilities将推动开源社区在自主代理领域的快速发展
- 移动端AI战局:Google和苹果在设备端AI的竞争日趋激烈
- Function Calling标准化:原生function calling支持将促进AI代理的工具使用标准化
相关链接
收录时间: 2026-04-04 | 来源: Hacker News (1741 points)