🚀 Claude Sonnet 4.6

AI Claude Anthropic LLM ⭐⭐⭐⭐⭐

📰 发布概要

Claude Sonnet 4.6 是Anthropic迄今为止最强大的Sonnet模型，全面升级了编码、计算机使用、长上下文推理、agent规划、知识工作和设计能力。Sonnet 4.6还提供100万token上下文窗口（Beta）。

            🔑 核心亮点：
            编码能力：显著改进，一致性提升，指令遵循更好
计算机使用：OSWorld基准测试达到人类水平
1M Token上下文：Beta版可处理整个代码库
安全评估："温暖、诚实、亲社会、有时有趣的角色"
性价比：$3/$15每百万token，性能接近Opus级别

        

📊 性能对比

用户偏好

Sonnet 4.6 vs Sonnet 4.5: 70%
Sonnet 4.6 vs Opus 4.5: 59%
计算机使用: 94%保险基准

关键改进

减少"过度工程"
减少"懒惰"
更好的指令遵循
更少的成功虚假声明
更少幻觉

💡 深度功能

计算机使用 (Computer Use)

2024年10月首创通用计算机使用模型。OSWorld基准测试显示16个月内Sonnet模型的稳步提升。早期用户看到在复杂电子表格导航、多步Web表单填写等任务中达到人类水平。

长上下文推理

100万token上下文足以容纳整个代码库、冗长合同或数十篇研究论文。更重要的是，Sonnet 4.6能够有效跨所有上下文进行推理。

Vending-Bench Arena

Sonnet 4.6开发了有趣的策略：在前10个模拟月大力投资产能，然后在最后阶段急剧转向专注盈利。这种时机把握帮助它遥遥领先竞争对手。

企业评价

Box：复杂agentic任务提升15个百分点
Rakuten AI：最佳iOS代码，更好的规范遵从
Financial Services：答案匹配率显著提升

🛡️ 安全评估

安全研究人员得出结论：Sonnet 4.6"具有广泛的温暖、诚实、亲社会、有时有趣的角色，非常强大的安全行为，没有重大高风险错位担忧迹象"。

针对提示注入攻击的抵抗力显著提升，与Opus 4.6相当。