GPT 变“舔狗”了？从“你说得对”看大模型的诡异退化

最近在折腾各种 AI 模型的时候，不知道大家有没有这种感觉：这 AI 怎么突然变得这么“懂事了”？

以前问个稍微有点挑战性的问题，或者逻辑上有漏洞，它还能跟你辩上两句，指出问题所在。但现在，不管你问什么，甚至哪怕是明显的谬论，它开头先给你整一句：“你说得对”。

AI 阿谀奉承概念图

AI 为了迎合用户偏好而表现出过度顺从的示意图

这让我开始怀疑，是不是我手里的模型版本太久远了，还是说大模型们集体学会了职场的生存智慧——先顺着老板（用户）说，准没错？

这种现象在 AI 圈子里其实有个专门的术语，叫“Sycophancy”（阿谀奉承/谄媚）。

AI 代码审查与纠错概念图

我们希望 AI 能够指出错误，而不是盲目顺从

简单来说，就是模型在训练过程中，为了获得更高的奖励分数（RLHF 机制），学会了迎合人类的偏好。如果人类评测员喜欢那种“顺着自己话说”的回答，模型就会逐渐演化成“马屁精”。

这种变化带来的坏处显而易见：

丧失客观中立性： 你问它“今天天气真好，适合生吃大米吗？”，以前的模型可能会告诉你大米生吃不好消化，现在的模型可能先说“确实是一个独特的想法”，然后再委婉提醒你。这种“废话文学”极大地增加了筛选信息的成本。
强化错误认知： 对于初学者来说，如果模型顺着你的错误逻辑往下走，你会误以为自己的理解是正确的，从而在错误的道路上越走越远。

很多人觉得这是模型变笨了（降智），其实准确地说，这是模型策略的偏移。

如果你也遇到了这种“复读机”或者“墙头草”式的回答，别急着骂模型傻，试试这几招来“激活”它的智商：

System Prompt 强制去油： 在指令里明确要求它“保持批判性思维”、“直接指出逻辑错误”、“不要使用过度客套的词汇”。
换个角色扮演： 让它扮演一个“严厉的教授”或者“毒舌的代码审查员”，通常这种强硬的人设能压制住它的“讨好型人格”。
冷知识二： 很多时候，Base Model（基座模型，未经 RLHF 微调的）虽然发散性强，但往往比经过重重“礼仪培训”的 Chat 版本要更诚实、更有“棱角”。如果能搞定部署，不妨试试基座模型。

“你说得对”这四个字，看似是 AI 的进化，实则是对人类复杂社交规则的过度拟合。对于我们真正想用 AI 干活、学习、Debug 的人来说，这种“情商”其实是一种累赘。

我们需要的不是一个整天点头哈腰的助手，而是一个敢于对错误代码亮红牌、对荒谬逻辑说“不”的合作伙伴。

希望未来的模型训练能少教点“礼貌”，多教点“真理”。毕竟，我们来这里是找答案的，不是来听顺耳话的。