连糖果题都能做错？大模型现在的思考能力真的变弱了吗？

最近手里那个号称“大善人”的 300 美元订阅账号又到了续费期，这几天的深度使用下来，感觉有点不对劲。

起因是手贱去刷了一道经典的“糖果题”。这题在逻辑圈里不复杂，属于考验模型基础推理能力的“送分题”。结果你猜怎么着？这号称拥有顶级思考强度的家伙，居然给我答飞了！

AI 思考过程展示

该模型在处理逻辑题时的混乱思考链条截图。

我看了一下它答题时的“思考过程”评级，大概在 4.8 左右（虽然后面知道这数值其实是某种映射，本质上跟 Max 版本的思考强度差不多）。但问题就出在这个“思考”上。

以前这道题，哪怕是稍微早一点的版本，都能凭借逻辑链条直接推导出来，步骤清晰，一眼就能看出它“懂了”。但这次，它的思考链条明显变得有些混乱，甚至在关键步骤出现了逻辑断层，最后硬生生给出了一个完全错误的答案。

模型巅峰状态对比

巅峰时期模型版本的思考状态对比示意图。

这就很离谱。要知道，现在的版本可是经过了无数次迭代和优化的，怎么连几年前老模型都能轻松拿下的基础题，现在反而成了拦路虎？

不少圈内朋友最近也有类似的反馈，大家普遍感觉这一两代模型的“锋利度”不如从前，尤其是那个曾经让所有人惊艳的 5.5 巅峰版本，简直是不可逾越的高峰。

现在的模型给人的感觉是：更“圆滑”了，但变“钝”了。

这种变化可能来自于两方面原因：

安全对齐的副作用：为了防止模型输出危险内容，训练时往往加入了大量的安全干预。这就像给一个绝世高手戴上了枷锁，虽然出招更安全了，但在处理某些需要纯粹逻辑跳转的问题时，束手束脚，反而容易出错。
能力的“遗忘”现象：有研究表明，模型在学习新任务或新数据时，确实可能出现对旧能力的遗忘，也就是所谓的“灾难性遗忘”。为了迎合更广泛的对话需求，它可能在某些垂直领域的深度推理能力上做了妥协。

兄弟们，如果你最近觉得 AI 帮你写代码、做逻辑题时总是差点意思，别怀疑，可能真不是你输入的问题，是模型本身“水”了。

针对这个情况，我有几个实用建议：

不要迷信“高级版”：对于简单的逻辑题或代码纠错，有时候用轻量级的模型反而效果更好，因为它们干扰少，推理更直接。
拆解步骤：遇到复杂问题，别指望 AI 一步到位。试着把大问题拆成几个小步骤，一步步追问，逼它沿着你的逻辑走，这比直接扔给它一个难题要靠谱得多。
多版本验证：如果你手头有不同版本的模型或不同平台的 API，遇到拿不准的答案，不妨多问几家。现在的模型差异化其实挺大，A 模型撞墙的题，B 模型可能会信手拈来。

这次翻车事件算是给我提了个醒：AI 发展虽然快，但并不是一条直线向上的。所谓的“智能”，在某些特定的逻辑角落，依然脆弱得不堪一击。我们在享受技术便利的同时，还是得保持清醒，时刻准备好给它做“人工校对”。

毕竟，现在要是连糖果题都做不对，还指望它帮我们搞定复杂的系统架构，那风险可就太大了。