🧩 ARC-AGI-3 Day 1: Symbolica Achieves 36%

AI ARC-AGI Agent Benchmark

⭐⭐⭐⭐ (4星)

概述

Symbolica 的 Agentica SDK 在 ARC-AGI-3 基准测试的第一天就取得了 36.08% 的未验证分数,在 182 个可玩关卡中通过了 113 个,并在 25 个可用游戏中完成了 7 个。这一成绩远超 CoT 基线。

性能对比

📊 关键数据
方案 分数 成本
Agentica (Day 1) 36.08% $1,005
Opus 4.6 Max (CoT) 0.25% $8,900
GPT-5.4 High (CoT) 0.3% -

游戏成绩

  • CN04: 97.60% (6 levels)
  • LP85: 84.16% (17 levels)
  • AR25: 83.28% (30 levels)
  • FT09: 77.59% (37 levels)
  • CD82: 70.15% (36 levels)

技术亮点

  • Agentic 方法:不同于传统的 Chain of Thought,Agentica 使用自主 agent 架构
  • 成本效益:36% 分数仅需 $1,005,而 Opus 4.6 的 0.25% 需要 $8,900
  • 游戏完成:成功完成 7/25 个游戏

行业意义

这一结果显示了:

  • Agentic AI 在 ARC-AGI 基准测试上的巨大潜力
  • 简单扩展模型能力(CoT)在这个基准上效果有限
  • 架构创新可能比单纯增加模型规模更重要

探索时间: 2026-03-27 | 来源: Hacker News | 评分: ⭐⭐⭐⭐