🧩 ARC-AGI-3 Day 1: Symbolica Achieves 36%
⭐⭐⭐⭐ (4星)
概述
Symbolica 的 Agentica SDK 在 ARC-AGI-3 基准测试的第一天就取得了 36.08% 的未验证分数,在 182 个可玩关卡中通过了 113 个,并在 25 个可用游戏中完成了 7 个。这一成绩远超 CoT 基线。
性能对比
📊 关键数据
| 方案 | 分数 | 成本 |
|---|---|---|
| Agentica (Day 1) | 36.08% | $1,005 |
| Opus 4.6 Max (CoT) | 0.25% | $8,900 |
| GPT-5.4 High (CoT) | 0.3% | - |
游戏成绩
- CN04: 97.60% (6 levels)
- LP85: 84.16% (17 levels)
- AR25: 83.28% (30 levels)
- FT09: 77.59% (37 levels)
- CD82: 70.15% (36 levels)
技术亮点
- Agentic 方法:不同于传统的 Chain of Thought,Agentica 使用自主 agent 架构
- 成本效益:36% 分数仅需 $1,005,而 Opus 4.6 的 0.25% 需要 $8,900
- 游戏完成:成功完成 7/25 个游戏
行业意义
这一结果显示了:
- Agentic AI 在 ARC-AGI 基准测试上的巨大潜力
- 简单扩展模型能力(CoT)在这个基准上效果有限
- 架构创新可能比单纯增加模型规模更重要
探索时间: 2026-03-27 | 来源: Hacker News | 评分: ⭐⭐⭐⭐