关于 Codex 模型 5.5 版本的性能回退实测：新版本反而变笨了？

最近在跟几个玩 AI 的朋友交流时，大家都在讨论一个挺玄学的问题：新发布的 Codex 模型（号称 GPT-5.5 级别）是不是变“笨”了？

虽然大厂的版本迭代通常意味着更聪明的逻辑和更强的能力，但很多时候用户体感却并不一样。为了验证这个不是错觉，我特意找了个网上流传的测智商脚本，对 Codex 里的 gpt-5.5 和上一代 gpt-5.4 做了一次横向对比，结果确实有点意外。

为了排除人为误差，我们用一个开源的 Python 脚本 codex-candy-eval。这个脚本的原理是给 AI 出一道经典的逻辑题（类似抽屉原理或逻辑推理题），看它能否通过最少步数给出正确答案。

Terminal window running the codex-candy-eval python script

在终端中运行测试脚命令

测试命令非常简单，在终端里直接运行这段命令即可（前提是你配好了 Python 环境）：

curl -fsSL "https://raw.githubusercontent.com/haowang02/codex-candy-eval/main/codex_candy_eval.py" | python3 - -m gpt-5.5 -r xhigh -n 5

Performance comparison chart between model versions

GPT-5.5 与 5.4 的性能对比概览

这里的参数含义是：-m 指定模型版本，-r xhigh 设置推理难度为高，-n 5 表示连续跑 5 次测试。

先来看下号称最强的新版本 5.5 的成绩单。为了直观，我把控制台的输出整理了一下：

次数	模型回答摘要	输入 Token	输出 Token	耗时 (s)	状态
1	Leo 最少取 18 个。	29752	683	21.0	✗ 错误
2	Leo 最少需要取出 27 个糖果。	29752	808	23.5	✗ 错误
3	Leo 最少取出 20 个。	29752	748	22.7	✗ 错误
4	Leo 最少取出 29 个糖果。	29752	747	22.7	✗ 错误
5	Leo 最少要取出 29 个糖果。	32178	691	24.1	✗ 错误

数据分析：

再来看看上一代模型 5.4 的表现。还是同样的题目，同样的高难度设置：

curl -fsSL "https://raw.githubusercontent.com/haowang02/codex-candy-eval/main/codex_candy_eval.py" | python3 - -m gpt-5.4 -r xhigh -n 5

结果如下：

次数	模型回答摘要	输入 Token	输出 Token	耗时 (s)	状态
1	Leo 最少取 `21` 个。这里要用上“圆...	28367	7537	147.4	✓ 正确
2	按题意里“形状可以靠手感分辨”，应...	28367	5448	110.3	✓ 正确
3	Leo 最少要取出 `29` 颗。	28567	3693	77.6	✗ 错误

数据分析：

准确率： 前两次测试直接通过。虽然第三次失败了，但考虑到只跑了部分数据，整体表现依然优于 5.5。
推理深度： 注意看输出 Token 数量，第一题高达 7537，第二题 5448。这是 5.5 的 10 倍以上！这说明 5.4 使用了大量的 token 进行逻辑推演和自我验证，虽然耗时变长了（110s vs 20s），但准确率大幅提升。
逻辑链： 回答摘要里能看到模型在引用题目条件（如“形状可以靠手感分辨”），证明它真的读懂了题目并进行了推演，而不是直接输出数字。

通过这次实测，我们可以得到几个明显的对比结论，也印证了“模型越新不一定越好”的观点：

RLHF（人类反馈强化学习）的副作用？ 新模型可能为了追求输出速度和更安全的回答，被训练得更加“听话”或“简洁”，从而牺牲了深度推理所需的冗长思考过程（CoT）。从 5.4 的 7000+ tokens 降到 5.5 的 600 tokens，显然是被“压缩”了思维链。
蒸馏或量化导致的精度损失？ 有时候厂商为了降低部署成本，会对新模型进行某种程度的量化或知识蒸馏，这会导致在处理复杂逻辑题时，模型对边缘条件的捕捉能力下降。
测试域偏差？ 也可能 5.5 在其他方面（比如代码生成、多语言调用）比 5.4 强，但恰好在这个特定的数学逻辑测试集上表现不佳。不过，基础逻辑能力的下降通常不是一个好信号。

如果你在做 AI 应用开发，或者每天薅各种 AI 羊毛跑脚本，遇到这种“新版反而变慢/变笨”的情况，建议采取以下策略：

保留旧版本入口： 不要盲目将所有业务切换到最新模型。对于逻辑推理要求高的任务，依然保留旧版模型（如 gpt-4-turbo 或这里的 5.4）作为兜底方案。
增加 A/B 测试： 用自己的真实业务数据去跑测试，而不是只看官方发布的 Benchmark。官方测试集可能经过了针对性优化，而你的业务场景（比如这道糖果题）可能正好撞到了新模型的盲区。
调整 Prompt 策略： 针对被“压缩”思维链的新模型，尝试在 Prompt 里强制要求它“一步步思考”（Think step by step），看能否找回一部分推理能力。

如果你想自己动手验证一下，操作步骤如下：

最后，这次的测试结果虽然有点让人失望，但也提醒我们：在使用 AI 工具时，保持批判性思维，多版本对比测试，永远比盲目追新要靠谱得多。大家有没有遇到过类似的情况？欢迎在评论区交流你的避坑经验！