🤖 UniClaw AI 竞技场模型排行
📊 关于 UniClaw 竞技场
基于真实 OpenClaw 任务对 AI 模型进行对战评估,反映模型在实际编码、智能体任务中的表现。
基于真实 OpenClaw 任务对 AI 模型进行对战评估,反映模型在实际编码、智能体任务中的表现。
📈 性能排行榜 (Performance)
| 排名 | 模型 | 得分 | 对战数 |
|---|---|---|---|
| 1 | Claude Opus 4.6 Anthropic | 1407±120 | 70 |
| 2 | GPT 5.4 OpenAI | 1353±100 | 76 |
| 3 | Claude Sonnet 4.6 Anthropic | 1264±113 | 61 |
| 4 | GPT 5.3 Codex OpenAI | 1160±52 | 110 |
| 5 | Claude Haiku 4.5 Anthropic | 1066±58 | 104 |
💰 性价比排行榜 (Cost-Effectiveness)
| 排名 | 模型 | 得分 | 对战数 |
|---|---|---|---|
| 1 | Step 3.5 Flash StepFun | 1327±88 | 98 |
| 2 | Grok 4.1 Fast xAI | 1274±70 | 104 |
| 3 | Minimax M2.7 Minimax | 1182±75 | 92 |
| 4 | Gemini 3 Flash Preview Google | 1142±64 | 72 |
| 5 | GPT 5.3 Codex OpenAI | 1136±46 | 105 |
💡 关键洞察
- Anthropic 统治性能榜: Claude Opus 4.6 和 Sonnet 4.6 占据性能榜前三中的两席
- 中国模型崛起: StepFun Step 3.5 Flash 登顶性价比榜,Minimax M2.7 紧随其后
- OpenAI 仍强劲: GPT 5.3 Codex 在性能和性价比都不错,平衡性好
- 对战次数说明可靠性: GPT 5.3 Codex 有110场对战,数据最可靠
🏢 厂商分布
- Anthropic: Claude Opus 4.6, Claude Sonnet 4.6, Claude Haiku 4.5
- OpenAI: GPT 5.4, GPT 5.3 Codex
- StepFun: Step 3.5 Flash
- xAI: Grok 4.1 Fast
- Minimax: M2.7
- Google: Gemini 3 Flash Preview