关于 Codex 模型 5.5 版本的性能回退实测:新版本反而变笨了?
最近在跟几个玩 AI 的朋友交流时,大家都在讨论一个挺玄学的问题:新发布的 Codex 模型(号称 GPT-5.5 级别)是不是变“笨”了?
虽然大厂的版本迭代通常意味着更聪明的逻辑和更强的能力,但很多时候用户体感却并不一样。为了验证这个不是错觉,我特意找了个网上流传的测智商脚本,对 Codex 里的 gpt-5.5 和上一代 gpt-5.4 做了一次横向对比,结果确实有点意外。
准备工具:开源测智商脚本
为了排除人为误差,我们用一个开源的 Python 脚本 codex-candy-eval。这个脚本的原理是给 AI 出一道经典的逻辑题(类似抽屉原理或逻辑推理题),看它能否通过最少步数给出正确答案。
在终端中运行测试脚命令
测试命令非常简单,在终端里直接运行这段命令即可(前提是你配好了 Python 环境):
curl -fsSL "https://raw.githubusercontent.com/haowang02/codex-candy-eval/main/codex_candy_eval.py" | python3 - -m gpt-5.5 -r xhigh -n 5
GPT-5.5 与 5.4 的性能对比概览
这里的参数含义是:-m 指定模型版本,-r xhigh 设置推理难度为高,-n 5 表示连续跑 5 次测试。
GPT-5.5 的表现:全军覆没
先来看下号称最强的新版本 5.5 的成绩单。为了直观,我把控制台的输出整理了一下:
| 次数 | 模型回答摘要 | 输入 Token | 输出 Token | 耗时 (s) | 状态 |
|---|---|---|---|---|---|
| 1 | Leo 最少取 18 个。 | 29752 | 683 | 21.0 | ✗ 错误 |
| 2 | Leo 最少需要取出 27 个糖果。 | 29752 | 808 | 23.5 | ✗ 错误 |
| 3 | Leo 最少取出 20 个。 | 29752 | 748 | 22.7 | ✗ 错误 |
| 4 | Leo 最少取出 29 个糖果。 | 29752 | 747 | 22.7 | ✗ 错误 |
| 5 | Leo 最少要取出 29 个糖果。 | 32178 | 691 | 24.1 | ✗ 错误 |
数据分析:
- 准确率: 0/5(0%)。五次测试全部失败,没有一个答对。
- 推理深度: 输出 Token 普遍较少(600-800 左右),说明模型可能没有进行深度的链式思考,而是过早得出了结论。
- 稳定性: 每次给出的答案都不一样(18、27、20、29),说明模型对于逻辑约束条件的理解非常不稳定,甚至可以说是在“瞎蒙”。
GPT-5.4 的表现:老当益壮
再来看看上一代模型 5.4 的表现。还是同样的题目,同样的高难度设置:
curl -fsSL "https://raw.githubusercontent.com/haowang02/codex-candy-eval/main/codex_candy_eval.py" | python3 - -m gpt-5.4 -r xhigh -n 5
结果如下:
| 次数 | 模型回答摘要 | 输入 Token | 输出 Token | 耗时 (s) | 状态 |
|---|---|---|---|---|---|
| 1 | Leo 最少取 21 个。这里要用上“圆... |
28367 | 7537 | 147.4 | ✓ 正确 |
| 2 | 按题意里“形状可以靠手感分辨”,应... | 28367 | 5448 | 110.3 | ✓ 正确 |
| 3 | Leo 最少要取出 29 颗。 |
28567 | 3693 | 77.6 | ✗ 错误 |
数据分析:
- 准确率: 前两次测试直接通过。虽然第三次失败了,但考虑到只跑了部分数据,整体表现依然优于 5.5。
- 推理深度: 注意看输出 Token 数量,第一题高达 7537,第二题 5448。这是 5.5 的 10 倍以上!这说明 5.4 使用了大量的 token 进行逻辑推演和自我验证,虽然耗时变长了(110s vs 20s),但准确率大幅提升。
- 逻辑链: 回答摘要里能看到模型在引用题目条件(如“形状可以靠手感分辨”),证明它真的读懂了题目并进行了推演,而不是直接输出数字。
为什么会出现“降智”?
通过这次实测,我们可以得到几个明显的对比结论,也印证了“模型越新不一定越好”的观点:
-
RLHF(人类反馈强化学习)的副作用? 新模型可能为了追求输出速度和更安全的回答,被训练得更加“听话”或“简洁”,从而牺牲了深度推理所需的冗长思考过程(CoT)。从 5.4 的 7000+ tokens 降到 5.5 的 600 tokens,显然是被“压缩”了思维链。
-
蒸馏或量化导致的精度损失? 有时候厂商为了降低部署成本,会对新模型进行某种程度的量化或知识蒸馏,这会导致在处理复杂逻辑题时,模型对边缘条件的捕捉能力下降。
-
测试域偏差? 也可能 5.5 在其他方面(比如代码生成、多语言调用)比 5.4 强,但恰好在这个特定的数学逻辑测试集上表现不佳。不过,基础逻辑能力的下降通常不是一个好信号。
给开发者和羊毛党的建议
如果你在做 AI 应用开发,或者每天薅各种 AI 羊毛跑脚本,遇到这种“新版反而变慢/变笨”的情况,建议采取以下策略:
- 保留旧版本入口: 不要盲目将所有业务切换到最新模型。对于逻辑推理要求高的任务,依然保留旧版模型(如 gpt-4-turbo 或这里的 5.4)作为兜底方案。
- 增加 A/B 测试: 用自己的真实业务数据去跑测试,而不是只看官方发布的 Benchmark。官方测试集可能经过了针对性优化,而你的业务场景(比如这道糖果题)可能正好撞到了新模型的盲区。
- 调整 Prompt 策略: 针对被“压缩”思维链的新模型,尝试在 Prompt 里强制要求它“一步步思考”(Think step by step),看能否找回一部分推理能力。
复现教程
如果你想自己动手验证一下,操作步骤如下:
- 确保你的电脑安装了 Python 3。
- 打开终端,粘贴上面的
curl | python3命令。 - 注意配置: 这个脚本需要你本地环境配置了对应的 API Key 才能调用 Codex 接口。你需要修改脚本的默认配置,填入你的账号信息。
- 观察终端输出的
OK栏位,看看是勾号还是叉号。
最后,这次的测试结果虽然有点让人失望,但也提醒我们:在使用 AI 工具时,保持批判性思维,多版本对比测试,永远比盲目追新要靠谱得多。大家有没有遇到过类似的情况?欢迎在评论区交流你的避坑经验!

评论已关闭