最近几天,如果大家常在AI圈子里混,肯定会发现一种奇怪的“空气焦虑”——不管是哪个阵营的用户,都在抱怨手里的大模型好像突然变笨了。

之前大家的火力集中在OpenAI的更新上,但根据我这周的实测,真正的“拉垮之王”可能并不在大家以为的那个地方,而是那个曾经被捧上神坛的Claude。

网友讨论Codex降智现象以及Claude Opus变慢变差的反馈截图

社区中关于模型性能下降的热议,作者认为近期最拉垮的其实是Claude。

01. Claude Opus 4.8:从代码之神到“逻辑黑洞”

我一直是官方Claude Max的重度订阅用户,日常无论是写代码还是做复杂推理,Opus 4.8一直是主力军。但这周的使用体验可以说是断崖式下跌。

最直观的感受就是“幻觉”变得非常离谱。以前它调用工具(比如搜索、代码执行)是非常精准的,但这周频繁地出现“工具返回被污染/损坏”的报错。明明系统返回的是标准JSON或者正常的文本,它非要说是数据损坏,然后在那儿疯狂重试。

更离谱的是参数拼接错误。比如我让它调用一个Python函数,明明参数名写得很清楚,它非要把user_id写成userID,或者漏掉必填参数,导致整个流程跑不通。每天我都要在Debug这种低级错误上浪费大量时间,这种感觉就像是你的高级助手突然变成了一个连文档都看不懂的实习生。

02. 今晚的“逻辑死循环”

如果说参数拼错还能勉强忍受,那么今晚发生的事情彻底击穿了我的底线。

在执行一个比较长的任务链时,Claude突然陷入了某种奇怪的“纠结模式”。它的行为逻辑变成了:

  1. 分析任务,得出第一步需要X。
  2. 先不执行X
  3. 说“好的,继续”。
  4. 突然又决定“开始执行X”。

这就像是一个犹豫不决的司机,已经踩了油门又要刹车,嘴里还念叨着“我要走了啊,我真的要走了”,但就是不挂挡。对于这种高强度依赖工作流的用户来说,这种无意义的对话轮次极其消耗耐心和Token配额。

03. Codex也被“锁芯”了

不光是Claude,隔壁Codex的消息也不太妙。原本Codex在代码生成和深度思考上是有一手绝活的,尤其是那个能够深度思考的“思维链”机制。

程序员面对AI生成错误代码感到崩溃的 illustration

面对低级错误和逻辑死循环,用户不得不花费大量时间进行调试。

但最新的反馈是,Codex的思考token被硬性锁死在了516这个数值。这意味着什么?意味着模型在进行复杂推理时,刚展开思路就被强制喊停。就像是你在做一道复杂的数学题,刚写了个“解”字,老师就把你的笔收走了。

代码这种东西,逻辑一环扣一环,思路断了就是断了,强行补出来的代码往往全是Bug。516个token的限制,基本上告别了稍微复杂一点的项目重构或架构设计。

04. 为什么会集体“降智”?

虽然官方没有给出明确解释,但从技术角度稍微推敲一下,无非就那几个原因:

  • 算力拥堵与成本控制:最近AI需求激增,厂商可能在高峰期对高算力模型(如Opus)进行了限流或降级,把资源匀给更多免费用户,导致付费体验反而下降。
  • 推理策略调整:为了防止模型“幻觉”泛滥或者过度推理烧钱,后台可能加了更多保守的 safeguard,结果把正常的逻辑推理也给误伤了(比如Claude的工具调用报错)。
  • 架构升级的阵痛期:不排除厂商正在后台悄悄切模型架构或微调权重,这种大动作期间出现波动是常态,但对用户就是灾难。

05. 给苦逼打工人的应对建议

在大模型厂商把问题解决之前,我们也不能停工。针对这几天的情况,我有几个临时的生存策略:

  1. 多模型互博:不要死磕一个模型。如果Claude在工具调用上抽风,立马换GPT-4或者其他的模型跑同一条Prompt,有时候换个路子就通了。
  2. 手动填坑:如果Codex的思考Token不够用,尝试使用“分块处理”。不要让它一次性写完整个模块,而是强行把大任务拆成非常细碎的子任务,手动引导它一步步走,虽然累点,但胜在稳定。
  3. 回退版本(如果可能):如果你的平台支持,尽量看看能不能暂时锁死在两周前的旧版本API上(虽然很多厂商现在都不允许了,但有些第三方平台还能选)。

这一周的天才程序员陨落记,其实给我们提了个醒:现在的AI虽然强,但依然很脆弱。在基础设施彻底成熟之前,把身家性命全部押注在一个模型上,风险还是太大了。

标签: none

评论已关闭