Gemma 4 — Google DeepMind最强开源模型

来源: deepmind.google | 发布时间: 2026-04-04 | 标签: AI / Open Source / LLM / Agent

概述

Gemma 4是Google DeepMind发布的最新开源模型系列,基于Gemini 3研究和技术构建,主打"最大化每参数的智能"(intelligence-per-parameter)。这是Gemma系列迄今为止最重要的升级,在移动设备和PC上实现了前沿级别的智能水平。

核心能力

1. Agentic Workflows(代理工作流)

构建能够规划、导航应用并代表用户完成任务的自主代理,原生支持function calling。这是Gemma 4最关键的突破点。

2. 多模态推理

强大的音频和视觉理解能力,提供丰富的多模态支持。

3. 140种语言支持

创建超越翻译的多语言体验,理解文化语境。

4. 高效架构

可在自有硬件上运行,实现高效开发和部署。

性能基准测试

基准测试 Gemma 4 31B Gemma 4 26B Gemma 4 2B Gemma 3 27B
Arena AI (IT Thinking) 1452 1441 1365
MMMLU Multilingual 85.2% 82.6% 69.4% 67.6%
MMMU Pro (多模态) 76.9% 73.8% 52.6% 49.7%
AIME 2026 数学 89.2% 88.3% 42.5% 20.8%
LiveCodeBench (编程) 80.0% 77.1% 52.0% 29.1%
τ2-bench (Agentic Tool Use) 86.4% 85.5% 57.5% 6.6%
GPQA Diamond (科学知识) 84.3% 82.3% 58.6% 42.4%

关键洞察

τ2-bench 突破性提升

Gemma 4 31B在agentic tool use任务上达到86.4%,而Gemma 3仅为6.6%。这是质的飞跃,表明Google在构建能够实际执行多步骤任务的AI代理方面取得了重大进展。

数学和编程能力大幅提升

AIME 2026数学基准:Gemma 4 31B达到89.2%(vs 上代20.8%)。LiveCodeBench编程:80.0%(vs 上代29.1%)。

移动端优化

Gemma 4特别强调"maximum compute and memory efficiency",面向移动和物联网设备优化。这与苹果的On-Device AI战略形成直接竞争。

行业意义

相关链接


收录时间: 2026-04-04 | 来源: Hacker News (1741 points)