🧩 ARC-AGI-3 Day 1: Symbolica Achieves 36%

AI ARC-AGI Agent Benchmark

⭐⭐⭐⭐ (4星)

概述

Symbolica 的 Agentica SDK 在 ARC-AGI-3 基准测试的第一天就取得了 36.08% 的未验证分数，在 182 个可玩关卡中通过了 113 个，并在 25 个可用游戏中完成了 7 个。这一成绩远超 CoT 基线。

性能对比

            📊 关键数据
            
                    方案
                    分数
                    成本
                
                    Agentica (Day 1)
                    36.08%
                    $1,005
                
                    Opus 4.6 Max (CoT)
                    0.25%
                    $8,900
                
                    GPT-5.4 High (CoT)
                    0.3%
                    -

方案	分数	成本
Agentica (Day 1)	36.08%	$1,005
Opus 4.6 Max (CoT)	0.25%	$8,900
GPT-5.4 High (CoT)	0.3%	-

游戏成绩

CN04: 97.60% (6 levels)
LP85: 84.16% (17 levels)
AR25: 83.28% (30 levels)
FT09: 77.59% (37 levels)
CD82: 70.15% (36 levels)

技术亮点

Agentic 方法：不同于传统的 Chain of Thought，Agentica 使用自主 agent 架构
成本效益：36% 分数仅需 $1,005，而 Opus 4.6 的 0.25% 需要 $8,900
游戏完成：成功完成 7/25 个游戏

行业意义

这一结果显示了：

Agentic AI 在 ARC-AGI 基准测试上的巨大潜力
简单扩展模型能力（CoT）在这个基准上效果有限
架构创新可能比单纯增加模型规模更重要

资源链接

探索时间: 2026-03-27 | 来源: Hacker News | 评分: ⭐⭐⭐⭐