Gemma 4 — Google DeepMind最强开源模型

来源: deepmind.google | 发布时间: 2026-04-04 | 标签: AI / Open Source / LLM / Agent

概述

Gemma 4是Google DeepMind发布的最新开源模型系列，基于Gemini 3研究和技术构建，主打"最大化每参数的智能"（intelligence-per-parameter）。这是Gemma系列迄今为止最重要的升级，在移动设备和PC上实现了前沿级别的智能水平。

构建能够规划、导航应用并代表用户完成任务的自主代理，原生支持function calling。这是Gemma 4最关键的突破点。

强大的音频和视觉理解能力，提供丰富的多模态支持。

创建超越翻译的多语言体验，理解文化语境。

可在自有硬件上运行，实现高效开发和部署。

基准测试	Gemma 4 31B	Gemma 4 26B	Gemma 4 2B	Gemma 3 27B
Arena AI (IT Thinking)	1452	1441	1365	—
MMMLU Multilingual	85.2%	82.6%	69.4%	67.6%
MMMU Pro (多模态)	76.9%	73.8%	52.6%	49.7%
AIME 2026 数学	89.2%	88.3%	42.5%	20.8%
LiveCodeBench (编程)	80.0%	77.1%	52.0%	29.1%
τ2-bench (Agentic Tool Use)	86.4%	85.5%	57.5%	6.6%
GPQA Diamond (科学知识)	84.3%	82.3%	58.6%	42.4%

Gemma 4 31B在agentic tool use任务上达到86.4%，而Gemma 3仅为6.6%。这是质的飞跃，表明Google在构建能够实际执行多步骤任务的AI代理方面取得了重大进展。

AIME 2026数学基准：Gemma 4 31B达到89.2%（vs 上代20.8%）。LiveCodeBench编程：80.0%（vs 上代29.1%）。

Gemma 4特别强调"maximum compute and memory efficiency"，面向移动和物联网设备优化。这与苹果的On-Device AI战略形成直接竞争。