最近在圈子里混,发现大家都在吐槽一件事:以前那个无所不能、代码写得飞快的 Codex,最近好像有点“降智”了。很多人在说,以前分钟能搞定的东西,现在要磨半天,而且产出质量也不如从前。

这事儿确实存在,但我这两天用下来,感觉真正让人头凉的,其实不是 Codex,而是另一个大家平时很宠的模型——Claude。

Codex 是真降智,还是预期太高?

程序员编写代码的屏幕截图

Codex 作为代码生成工具的代表,常被用于编写脚本和自动化任务。

先说说 Codex。这玩意儿从出来那天起,就是我们写代码、搞自动化的神兵利器。为什么最近觉得它变笨了?我觉得有两个可能:

1. 任务复杂度上来了 以前我们可能只想让它写个简单的脚本、做个正则匹配,这种任务它闭着眼都能完成。现在大家上手就让它干全栈开发、架构设计,甚至直接丢给它几万行的 legacy code 让它重构。这种高难度任务,本来就容易出错,一旦出错,大家的第一反应就是“它变蠢了”。

2. 输出稳定性在波动 不可否认,有时候它的输出确实会反复横跳。同一个问题,问两遍答案不一样,一会儿是神仙代码,一会儿又是小学徒水平。这种不稳定性确实很搞心态。

Claude 近期的表现,才是真的让人担心

把目光转到 Claude 身上,最近这一波操作,真的只能用“拉垮”来形容。

逻辑能力严重下滑 以前 Claude 最强的地方在于逻辑推理,尤其是在处理长文本、复杂逻辑链的时候,表现得比很多竞品都要稳。但最近你会发现,它经常在一个简单的逻辑陷阱里绕不出来,甚至会出现“一本正经胡说八道”的情况。对于需要严密逻辑的推导任务,现在的 Claude 真没法放心用。

展示逻辑思维和推导过程的示意图

复杂的逻辑推理曾是 Claude 的强项,但近期表现下滑明显。

幻觉现象加剧 这也是个大坑。以前它不懂会直接说“我无法回答”,现在为了强行回答,经常会编造不存在的事实、引用错误的文献(如果在开启联网的情况下),或者给出完全错误的链接。对于咱们这种要靠它查资料、做调研的人来说,这种“睁眼说瞎话”的行为极度浪费时间。

安全性过载 虽然安全很重要,但最近 Claude 的“政治正确”过滤器好像有点过于敏感了。有时候问个纯技术的问题,它都要给你审查半天,或者干脆拒答。这导致我们在实际干活时的效率大打折扣。

我们该怎么应对?

面对模型表现不稳定的情况,咱们也不能干等着,得有应对策略:

1. 不要迷信单一模型 现在没有哪个模型是全能的。写代码,Codex 还是主力;做逻辑推理,可能还得看别的模型;写文案,GPT-4 依然有一手。多模型轮换使用,谁好用就用谁,别在一棵树上吊死。

2. Prompt 优化不能省 模型变“笨”了,有时候是因为你的 Prompt 没跟上。现在的模型对指令的细节要求越来越高。尝试把任务拆解得更细,给出更明确的示例,能显著提升输出的稳定性。

3. 人机结合,关键还得靠自己 AI 是来辅助我们的,不是来替代我们思考的。对于关键代码、重要决策,一定要人工复核。把 AI 当作高效的实习生,而不是全能的专家,心态放平,体验反而会好很多。

总结

Codex 确实有点波动,但 Claude 这一波“降智”才是真的让人难受。技术在迭代,模型表现起起伏伏也是常态。对于咱们这些靠技术吃饭的人来说,保持敏锐,灵活切换工具,才是硬道理。大家最近用下来感觉如何?欢迎在评论区分享一下你的踩坑经历!

标签: none

评论已关闭