开源神器来了：全自动Codex Bench实测，你的AI模型变聪明了吗？

最近AI圈子里关于模型智能程度的讨论又热起来了，大家都在问：我的小G是不是变聪明了？国产模型到底有没长进？光靠聊天问问题感觉太玄学，还是得靠硬核数据说话。

今天给大家挖到了一个开源好东西——Codex Bench。这玩意儿主打一个全自动，专门用来给各种大模型做“体检”，不仅能测常规能力，还内置了所谓的“糖果题”，甚至传言能搞到5.6灰测的128k大长文本评测资格，而且对Claude、GPT以及国产模型都有通用的检测方案。听起来是不是有点东西？

Codex Bench 项目展示

图：Codex Bench 项目概览，支持多种模型检测

简单来说，Codex Bench就是一个自动化的跑分脚本。以前我们要测试模型代码能力或者逻辑推理，得费劲巴力地自己出题、手动输入还得人工判断结果对错。现在这个工具把这些流程全包圆了。

最吸引人的点在于它内置的“糖果题”。这可不是那种随便搜搜就能搜到的简单题目，通常是指那种看似简单实则暗藏玄机、能极大暴露模型逻辑漏洞的高质量测试集。用它来跑一遍，模型到底是“真聪明”还是“背书背得好”，立马现原形。

这次更新里最让人眼馋的，莫过于对128k长上下文灰测的支持。玩AI的都知道，长文本能力是目前大厂厮杀的重点。如果工具真的能拿到灰测资格并针对超长文本进行精准检测，那对于我们想提前体验新技术或者评估模型长文本记忆力的用户来说，绝对是刚需。这波羊毛，不薅白不薅。

除了GPT和Claude，这次也很友好地加入了国产模型的通用检测方案。大家平时看评测，很多都是盯着国外模型跑分，自家国产模型到底咋样，心里没底。有了Codex Bench，不管是哪家出的模型，只要能接API，理论上都能拉过来跑一跑，用统一标准看看到底能不能打。

作为一个开源项目，整套代码直接放了出来，没有任何藏着掖着的私有部分。这意味着什么？意味着你可以自己去搭建，甚至根据自己的需求魔改题目。

虽然具体代码细节大家可以去仓库里看，但大体思路就是配置好API Key，选好你要测试的模型和题目集（比如那个糖果题脚本），然后点击运行，剩下的就是静静等待它吐出一份详细的检测报告。

如果你是个技术发烧友，或者手里正好有几个模型想对比一下性能，Codex Bench 绝对是个值得一试的工具。它不仅帮你省去了手动测试的麻烦，更重要的是提供了一套相对客观的“智商测试”标准。至于你的小G有没有变聪明，跑一遍你就全知道了。