大佬都在吐槽 Codex 变笨？其实 Claude 这一波才是真的拉垮

最近在圈子里混，发现大家都在吐槽一件事：以前那个无所不能、代码写得飞快的 Codex，最近好像有点“降智”了。很多人在说，以前分钟能搞定的东西，现在要磨半天，而且产出质量也不如从前。

这事儿确实存在，但我这两天用下来，感觉真正让人头凉的，其实不是 Codex，而是另一个大家平时很宠的模型——Claude。

程序员编写代码的屏幕截图

Codex 作为代码生成工具的代表，常被用于编写脚本和自动化任务。

先说说 Codex。这玩意儿从出来那天起，就是我们写代码、搞自动化的神兵利器。为什么最近觉得它变笨了？我觉得有两个可能：

1. 任务复杂度上来了 以前我们可能只想让它写个简单的脚本、做个正则匹配，这种任务它闭着眼都能完成。现在大家上手就让它干全栈开发、架构设计，甚至直接丢给它几万行的 legacy code 让它重构。这种高难度任务，本来就容易出错，一旦出错，大家的第一反应就是“它变蠢了”。

2. 输出稳定性在波动 不可否认，有时候它的输出确实会反复横跳。同一个问题，问两遍答案不一样，一会儿是神仙代码，一会儿又是小学徒水平。这种不稳定性确实很搞心态。

把目光转到 Claude 身上，最近这一波操作，真的只能用“拉垮”来形容。

逻辑能力严重下滑 以前 Claude 最强的地方在于逻辑推理，尤其是在处理长文本、复杂逻辑链的时候，表现得比很多竞品都要稳。但最近你会发现，它经常在一个简单的逻辑陷阱里绕不出来，甚至会出现“一本正经胡说八道”的情况。对于需要严密逻辑的推导任务，现在的 Claude 真没法放心用。

展示逻辑思维和推导过程的示意图

复杂的逻辑推理曾是 Claude 的强项，但近期表现下滑明显。

幻觉现象加剧 这也是个大坑。以前它不懂会直接说“我无法回答”，现在为了强行回答，经常会编造不存在的事实、引用错误的文献（如果在开启联网的情况下），或者给出完全错误的链接。对于咱们这种要靠它查资料、做调研的人来说，这种“睁眼说瞎话”的行为极度浪费时间。

安全性过载 虽然安全很重要，但最近 Claude 的“政治正确”过滤器好像有点过于敏感了。有时候问个纯技术的问题，它都要给你审查半天，或者干脆拒答。这导致我们在实际干活时的效率大打折扣。

面对模型表现不稳定的情况，咱们也不能干等着，得有应对策略：

1. 不要迷信单一模型 现在没有哪个模型是全能的。写代码，Codex 还是主力；做逻辑推理，可能还得看别的模型；写文案，GPT-4 依然有一手。多模型轮换使用，谁好用就用谁，别在一棵树上吊死。

2. Prompt 优化不能省 模型变“笨”了，有时候是因为你的 Prompt 没跟上。现在的模型对指令的细节要求越来越高。尝试把任务拆解得更细，给出更明确的示例，能显著提升输出的稳定性。

3. 人机结合，关键还得靠自己 AI 是来辅助我们的，不是来替代我们思考的。对于关键代码、重要决策，一定要人工复核。把 AI 当作高效的实习生，而不是全能的专家，心态放平，体验反而会好很多。

Codex 确实有点波动，但 Claude 这一波“降智”才是真的让人难受。技术在迭代，模型表现起起伏伏也是常态。对于咱们这些靠技术吃饭的人来说，保持敏锐，灵活切换工具，才是硬道理。大家最近用下来感觉如何？欢迎在评论区分享一下你的踩坑经历！