最近在跟几个玩 AI 的朋友交流时,大家都在讨论一个挺玄学的问题:新发布的 Codex 模型(号称 GPT-5.5 级别)是不是变“笨”了?

虽然大厂的版本迭代通常意味着更聪明的逻辑和更强的能力,但很多时候用户体感却并不一样。为了验证这个不是错觉,我特意找了个网上流传的测智商脚本,对 Codex 里的 gpt-5.5 和上一代 gpt-5.4 做了一次横向对比,结果确实有点意外。

准备工具:开源测智商脚本

为了排除人为误差,我们用一个开源的 Python 脚本 codex-candy-eval。这个脚本的原理是给 AI 出一道经典的逻辑题(类似抽屉原理或逻辑推理题),看它能否通过最少步数给出正确答案。

Terminal window running the codex-candy-eval python script

在终端中运行测试脚命令

测试命令非常简单,在终端里直接运行这段命令即可(前提是你配好了 Python 环境):

curl -fsSL "https://raw.githubusercontent.com/haowang02/codex-candy-eval/main/codex_candy_eval.py" | python3 - -m gpt-5.5 -r xhigh -n 5

Performance comparison chart between model versions

GPT-5.5 与 5.4 的性能对比概览

这里的参数含义是:-m 指定模型版本,-r xhigh 设置推理难度为高,-n 5 表示连续跑 5 次测试。

GPT-5.5 的表现:全军覆没

先来看下号称最强的新版本 5.5 的成绩单。为了直观,我把控制台的输出整理了一下:

次数 模型回答摘要 输入 Token 输出 Token 耗时 (s) 状态
1 Leo 最少取 18 个。 29752 683 21.0 ✗ 错误
2 Leo 最少需要取出 27 个糖果。 29752 808 23.5 ✗ 错误
3 Leo 最少取出 20 个。 29752 748 22.7 ✗ 错误
4 Leo 最少取出 29 个糖果。 29752 747 22.7 ✗ 错误
5 Leo 最少要取出 29 个糖果。 32178 691 24.1 ✗ 错误

数据分析:

  • 准确率: 0/5(0%)。五次测试全部失败,没有一个答对。
  • 推理深度: 输出 Token 普遍较少(600-800 左右),说明模型可能没有进行深度的链式思考,而是过早得出了结论。
  • 稳定性: 每次给出的答案都不一样(18、27、20、29),说明模型对于逻辑约束条件的理解非常不稳定,甚至可以说是在“瞎蒙”。

GPT-5.4 的表现:老当益壮

再来看看上一代模型 5.4 的表现。还是同样的题目,同样的高难度设置:

curl -fsSL "https://raw.githubusercontent.com/haowang02/codex-candy-eval/main/codex_candy_eval.py" | python3 - -m gpt-5.4 -r xhigh -n 5

结果如下:

次数 模型回答摘要 输入 Token 输出 Token 耗时 (s) 状态
1 Leo 最少取 21 个。这里要用上“圆... 28367 7537 147.4 ✓ 正确
2 按题意里“形状可以靠手感分辨”,应... 28367 5448 110.3 ✓ 正确
3 Leo 最少要取出 29 颗。 28567 3693 77.6 ✗ 错误

数据分析:

  • 准确率: 前两次测试直接通过。虽然第三次失败了,但考虑到只跑了部分数据,整体表现依然优于 5.5。
  • 推理深度: 注意看输出 Token 数量,第一题高达 7537,第二题 5448。这是 5.5 的 10 倍以上!这说明 5.4 使用了大量的 token 进行逻辑推演和自我验证,虽然耗时变长了(110s vs 20s),但准确率大幅提升。
  • 逻辑链: 回答摘要里能看到模型在引用题目条件(如“形状可以靠手感分辨”),证明它真的读懂了题目并进行了推演,而不是直接输出数字。

为什么会出现“降智”?

通过这次实测,我们可以得到几个明显的对比结论,也印证了“模型越新不一定越好”的观点:

  1. RLHF(人类反馈强化学习)的副作用? 新模型可能为了追求输出速度和更安全的回答,被训练得更加“听话”或“简洁”,从而牺牲了深度推理所需的冗长思考过程(CoT)。从 5.4 的 7000+ tokens 降到 5.5 的 600 tokens,显然是被“压缩”了思维链。

  2. 蒸馏或量化导致的精度损失? 有时候厂商为了降低部署成本,会对新模型进行某种程度的量化或知识蒸馏,这会导致在处理复杂逻辑题时,模型对边缘条件的捕捉能力下降。

  3. 测试域偏差? 也可能 5.5 在其他方面(比如代码生成、多语言调用)比 5.4 强,但恰好在这个特定的数学逻辑测试集上表现不佳。不过,基础逻辑能力的下降通常不是一个好信号。

给开发者和羊毛党的建议

如果你在做 AI 应用开发,或者每天薅各种 AI 羊毛跑脚本,遇到这种“新版反而变慢/变笨”的情况,建议采取以下策略:

  • 保留旧版本入口: 不要盲目将所有业务切换到最新模型。对于逻辑推理要求高的任务,依然保留旧版模型(如 gpt-4-turbo 或这里的 5.4)作为兜底方案。
  • 增加 A/B 测试: 用自己的真实业务数据去跑测试,而不是只看官方发布的 Benchmark。官方测试集可能经过了针对性优化,而你的业务场景(比如这道糖果题)可能正好撞到了新模型的盲区。
  • 调整 Prompt 策略: 针对被“压缩”思维链的新模型,尝试在 Prompt 里强制要求它“一步步思考”(Think step by step),看能否找回一部分推理能力。

复现教程

如果你想自己动手验证一下,操作步骤如下:

  1. 确保你的电脑安装了 Python 3。
  2. 打开终端,粘贴上面的 curl | python3 命令。
  3. 注意配置: 这个脚本需要你本地环境配置了对应的 API Key 才能调用 Codex 接口。你需要修改脚本的默认配置,填入你的账号信息。
  4. 观察终端输出的 OK 栏位,看看是勾号还是叉号。

最后,这次的测试结果虽然有点让人失望,但也提醒我们:在使用 AI 工具时,保持批判性思维,多版本对比测试,永远比盲目追新要靠谱得多。大家有没有遇到过类似的情况?欢迎在评论区交流你的避坑经验!

标签: none

AI Skills Smart Station on Nick Launches

评论已关闭