Claude Sonnet 5 来了：代理能力暴涨，但这几个迁移陷阱你得先知道

大家好，今天咱们来聊聊 Anthropic 刚刚发布的 Claude Sonnet 5。

官方这次的调门很高，直接把这款模型定义为“迄今为止代理能力最强的 Sonnet 模型”。简单翻译一下就是：以前必须得花大价钱上 Opus 才能稳稳搞定的多步骤复杂任务，现在用 Sonnet 5 也能搞定了，而且价格更香。

这对我们开发者和重度用户来说绝对是个好消息，但也有些细节需要特别注意，尤其是关于“钱”的部分。咱们别光看热闹，直接上干货。

一、卷出新高度：性能直逼 Opus，价格只有三折

先来看核心卖点。Sonnet 5 的定位非常清晰——把原本属于顶配 Opus 系列的“代理能力”下放到中端 Sonnet 价位。所谓的代理能力，简单说就是模型能不能自己定计划、能不能调用浏览器和终端、能不能像个真正的 Agent 一样自主干活，而不是只会陪聊。

官方放了一组基准测试数据，咱们挑重点看：

测试项	Sonnet 5	Sonnet 4.6	Opus 4.8 (参考)
SWE-bench Pro (编程代理)	63.2%	58.1%	69.2%
Terminal-Bench 2.1 (终端操作)	80.4%	67.0%	82.7%
OSWorld-Verified (电脑使用)	81.2%	78.5%	83.4%
GDPval-AA v2 (知识工作)	1618	1395	1615

这里有三个关键信息：

整体追赶 Opus：在很多硬核的代码和计算机操作测试里，Sonnet 5 和 Opus 4.8 的差距已经非常小了，甚至在某些场景下（比如知识工作 GDPval），Sonnet 5 还反超了 Opus 4.8。
涨幅巨大：相比上一代 Sonnet 4.6，Terminal-Bench 2.1 的分数暴涨了 13.4 个百分点，说明它在终端操作和编程任务上的能力提升非常明显。
Effort 等级的讲究：官方还放了一张成本-性能曲线图。简单理解就是，你可以在 API 里通过 effort 参数控制它“想多久”。大部分场景下，Sonnet 5 的性价比都优于 4.6；而在需要极致精度时，Opus 依然是王者。这意味着两者不再是非此即彼，而是可以通过调节参数来覆盖不同的性价比区间。

这部分是最直接涉及咱们钱包的，大家一定要看仔细。

官方公布的定价如下：

看起来价格和 Sonnet 4.6 差不多，甚至初期更便宜，对吧？但是，这里有一个很容易被忽略的大坑。

Sonnet 5 换用了新的 Tokenizer（分词器）。这就导致同样的一段话，在新模型眼里可能会变成更多的 Token。根据官方说法，Token 数量大约是原来的 1.0 到 1.35 倍。

这意味着什么？

虽然单价看似没变（甚至更低了），但因为计算单位的密度变了，你最终花的钱可能并没有明显减少，甚至部分场景下反而会变贵。官方说介绍期定价大致“成本中性”，也就是别指望能省大钱，主要是为了让你无痛迁移。

避坑建议： 如果你在做精确的成本预算或者迁移评估，千万不要直接按单价倍率去算，一定要跑一遍 count_tokens 实测，看看你的具体业务场景 Token 消耗涨了多少。

不过横向对比一下，Opus 4.8 的标准价是 $5/$25，所以哪怕过了促销期，Sonnet 5 拿来做代理任务依然只要 Opus 三到五折的成本，这点还是非常划算的。

随着 Sonnet 5 能力的提升，Anthropic 在生态上也做了一些针对性的升级，特别是多代理编排功能。

现在的官方推荐玩法是：“Sonnet 5 做执行层，遇到搞不定的疑难杂症升级给 Opus”。 这种模式被称为 escalation（升级模式）。

具体技术细节大家可以去翻文档，这里只划几个重点：

对于咱们开发者来说，这意味着你可以用极低的成本让 Sonnet 5 去处理大量琐碎的执行任务，只在必要时才唤醒昂贵的 Opus，整体成本会非常可控。

再简单提一下安全方面。Sonnet 5 在抵抗恶意指令、防止 Prompt 注入以及降低幻觉率方面都比上一代有提升，这对于跑自动化流程的同学来说是个利好——跑得更稳，翻车概率更低。

不过要注意的是，Sonnet 5 并没有针对网络安全任务（比如写漏洞利用代码）做专门训练，这方面能力依然弱于 Opus 系列。而且因为通用智能的提升，它默认开启了网络安全实时防护，别指望拿它当黑客工具用。

最后，官方还更新了 claude-api 这个开源 Agent Skill。如果你要用代码迁移到 Sonnet 5，它会很贴心地帮你推荐合适的 effort 等级，甚至标记出哪些 Prompt 在新模型上可能表现不同，算是个非常好用的辅助工具。

这次发布的信号很明显：Anthropic 正在疯狂地把高阶能力普及化。

决策建议：

总的来说，Sonnet 5 是一款非常均衡且“能打”的模型，特别是在代理和编程领域，它可能会成为未来一段时间内的性价比首选。大家如果有实测数据，欢迎在评论区交流！

声明：本文基于官方发布信息整理，仅供参考，不构成投资建议。