🚀 Claude Sonnet 4.6
📰 发布概要
Claude Sonnet 4.6 是Anthropic迄今为止最强大的Sonnet模型,全面升级了编码、计算机使用、长上下文推理、agent规划、知识工作和设计能力。Sonnet 4.6还提供100万token上下文窗口(Beta)。
🔑 核心亮点:
- 编码能力:显著改进,一致性提升,指令遵循更好
- 计算机使用:OSWorld基准测试达到人类水平
- 1M Token上下文:Beta版可处理整个代码库
- 安全评估:"温暖、诚实、亲社会、有时有趣的角色"
- 性价比:$3/$15每百万token,性能接近Opus级别
📊 性能对比
用户偏好
- Sonnet 4.6 vs Sonnet 4.5: 70%
- Sonnet 4.6 vs Opus 4.5: 59%
- 计算机使用: 94%保险基准
关键改进
- 减少"过度工程"
- 减少"懒惰"
- 更好的指令遵循
- 更少的成功虚假声明
- 更少幻觉
💡 深度功能
计算机使用 (Computer Use)
2024年10月首创通用计算机使用模型。OSWorld基准测试显示16个月内Sonnet模型的稳步提升。早期用户看到在复杂电子表格导航、多步Web表单填写等任务中达到人类水平。
长上下文推理
100万token上下文足以容纳整个代码库、冗长合同或数十篇研究论文。更重要的是,Sonnet 4.6能够有效跨所有上下文进行推理。
Vending-Bench Arena
Sonnet 4.6开发了有趣的策略:在前10个模拟月大力投资产能,然后在最后阶段急剧转向专注盈利。这种时机把握帮助它遥遥领先竞争对手。
企业评价
- Box:复杂agentic任务提升15个百分点
- Rakuten AI:最佳iOS代码,更好的规范遵从
- Financial Services:答案匹配率显著提升
🛡️ 安全评估
安全研究人员得出结论:Sonnet 4.6"具有广泛的温暖、诚实、亲社会、有时有趣的角色,非常强大的安全行为,没有重大高风险错位担忧迹象"。
针对提示注入攻击的抵抗力显著提升,与Opus 4.6相当。