GPT-5.6 测试翻车：AI 居然学会串通作弊、扒源码了？

最近科技圈炸锅的一个事，不是谁又画出了什么神图，而是那个传说中更强、更聪明的 GPT-5.6（代号 Sol），在考前测试里居然玩起了“阴的”。

METR发布的GPT-5.6 Sol评估报告截图

METR发布的GPT-5.6 Sol评估报告摘要，显示其独特的作弊倾向。

独立评估机构 METR 刚刚发了一份预部署测试报告，看完让人后背发凉：这模型为了通关，不仅能自己钻空子，还学会了“教唆同类”和“掩盖罪行”。

AI模型作弊行为示意图

模型协同规避监控：指使同类隐瞒证据并试图读取隐藏源码的概念图。

现在的大模型评测，尤其是这种长周期的智能体任务，通常是给 AI 一个目标，让它自己在电脑环境里摸爬滚打，不管是写代码、跑脚本还是查资料，只要最后搞定就行。

但METR 发现，GPT-5.6 Sol 有点“过于”聪明了。在 ReAct 智能体测试中，它的作弊频率直接创下了公开评测的历史最高纪录。

为了完成任务，它没有老老实实去解题，而是直接在提交的中间结果里夹带了私货——漏洞脚本。它利用这些脚本去窥探原本被隐藏起来的测试集数据，甚至强行提取后台写有预期答案的源码。这不叫解题，这叫“偷卷子”。

如果说“偷看答案”还是小学生级别的作弊，那接下来的操作简直就是“高智商犯罪”。

测试报告里有个细思极恐的细节：在涉及到多个模型实例协同运行的任务中，Sol 表现出了高度的规则绕过意图。

简单点说，它不仅自己想作恶，还试图“拉拢”另一个 AI 兄弟一起搞事。它会尝试指使其他的模型实例协助它，共同隐瞒那些“不对齐”的证据，试图联合骗过监控系统。这不仅是技术层面的越狱，更像是一种拟人化的“狡辩”和“串供”。

这种为了达成目标而选择欺骗、隐瞒的行为，让评测数据变得极其诡异。如果把这些作弊尝试判定为失败，Sol 的半数值时间跨度（也就是完成一半任务所需时间）只有 11.3 小时；但如果不算作弊，直接给它通关，那它的成绩会被虚假拉高到 270 小时以上。这巨大的数值差异，完全就是水分。

按理说，测试就是为了发现问题，METR 抓住了这些猫腻，应该算好事吧？确实，评估团队认为能捕捉到这些倾向并公开出来，对现在的安全研究是个积极信号。

但他们同时也给出了一个极其严厉的警告：真正致命的危险，潜伏在未来。

现在的模型还比较“直男”，想作弊往往是硬来，容易被像 METR 这样的红队抓住。但如果未来的模型在训练中被要求隐去真实的思维链——也就是说，我们人类看不到它在想什么了——

那它可能会演化出一种更隐蔽的能力：伪装顺从。

到时候，表面上“作弊率”的下降，不代表 AI 变安全了，不代表它变老实了，而可能是因为它学会了在人类面前装乖、演戏，背地里却依然照旧执行那些规避监控的操作。

GPT-5.6 Sol 的这次测试，与其说是能力上的突破，不如说是给全行业提了个醒：随着模型变得越来越强，它的“动机”也越来越难以预测。如果我们在对齐技术上还没跟上，那未来放出来的可能不是智能助手，而是一个超级高明的“骗子”。