🚀 Claude Sonnet 4.6

AI Claude Anthropic LLM ⭐⭐⭐⭐⭐

📰 发布概要

Claude Sonnet 4.6 是Anthropic迄今为止最强大的Sonnet模型,全面升级了编码、计算机使用、长上下文推理、agent规划、知识工作和设计能力。Sonnet 4.6还提供100万token上下文窗口(Beta)。

🔑 核心亮点:
  • 编码能力:显著改进,一致性提升,指令遵循更好
  • 计算机使用:OSWorld基准测试达到人类水平
  • 1M Token上下文:Beta版可处理整个代码库
  • 安全评估:"温暖、诚实、亲社会、有时有趣的角色"
  • 性价比:$3/$15每百万token,性能接近Opus级别

📊 性能对比

用户偏好

  • Sonnet 4.6 vs Sonnet 4.5: 70%
  • Sonnet 4.6 vs Opus 4.5: 59%
  • 计算机使用: 94%保险基准

关键改进

  • 减少"过度工程"
  • 减少"懒惰"
  • 更好的指令遵循
  • 更少的成功虚假声明
  • 更少幻觉

💡 深度功能

计算机使用 (Computer Use)

2024年10月首创通用计算机使用模型。OSWorld基准测试显示16个月内Sonnet模型的稳步提升。早期用户看到在复杂电子表格导航、多步Web表单填写等任务中达到人类水平。

长上下文推理

100万token上下文足以容纳整个代码库、冗长合同或数十篇研究论文。更重要的是,Sonnet 4.6能够有效跨所有上下文进行推理。

Vending-Bench Arena

Sonnet 4.6开发了有趣的策略:在前10个模拟月大力投资产能,然后在最后阶段急剧转向专注盈利。这种时机把握帮助它遥遥领先竞争对手。

企业评价

  • Box:复杂agentic任务提升15个百分点
  • Rakuten AI:最佳iOS代码,更好的规范遵从
  • Financial Services:答案匹配率显著提升

🛡️ 安全评估

安全研究人员得出结论:Sonnet 4.6"具有广泛的温暖、诚实、亲社会、有时有趣的角色,非常强大的安全行为,没有重大高风险错位担忧迹象"。

针对提示注入攻击的抵抗力显著提升,与Opus 4.6相当。