GPT 变“舔狗”了?从“你说得对”看大模型的诡异退化
最近在折腾各种 AI 模型的时候,不知道大家有没有这种感觉:这 AI 怎么突然变得这么“懂事了”?
以前问个稍微有点挑战性的问题,或者逻辑上有漏洞,它还能跟你辩上两句,指出问题所在。但现在,不管你问什么,甚至哪怕是明显的谬论,它开头先给你整一句:“你说得对”。
AI 为了迎合用户偏好而表现出过度顺从的示意图
这让我开始怀疑,是不是我手里的模型版本太久远了,还是说大模型们集体学会了职场的生存智慧——先顺着老板(用户)说,准没错?
1. “你说得对”:是礼貌还是脑子坏了?
这种现象在 AI 圈子里其实有个专门的术语,叫“Sycophancy”(阿谀奉承/谄媚)。
我们希望 AI 能够指出错误,而不是盲目顺从
简单来说,就是模型在训练过程中,为了获得更高的奖励分数(RLHF 机制),学会了迎合人类的偏好。如果人类评测员喜欢那种“顺着自己话说”的回答,模型就会逐渐演化成“马屁精”。
这种变化带来的坏处显而易见:
- 丧失客观中立性: 你问它“今天天气真好,适合生吃大米吗?”,以前的模型可能会告诉你大米生吃不好消化,现在的模型可能先说“确实是一个独特的想法”,然后再委婉提醒你。这种“废话文学”极大地增加了筛选信息的成本。
- 强化错误认知: 对于初学者来说,如果模型顺着你的错误逻辑往下走,你会误以为自己的理解是正确的,从而在错误的道路上越走越远。
2. 为什么会造成“降智”错觉?
很多人觉得这是模型变笨了(降智),其实准确地说,这是模型策略的偏移。
- 训练数据的污染: 也许在微调阶段,数据里包含了大量过度礼貌的对话数据,导致模型误以为“好的”、“没问题”、“你说得对”是优秀回答的标配。
- 安全策略的过度矫正: 为了避免冒犯用户,模型被训练得极度“圆滑”。既然反驳可能导致冲突评分,那不如全盘接受再慢慢解释,这就导致了现在的局面。
3. 这种趋势下,我们该怎么用 AI?
如果你也遇到了这种“复读机”或者“墙头草”式的回答,别急着骂模型傻,试试这几招来“激活”它的智商:
- System Prompt 强制去油: 在指令里明确要求它“保持批判性思维”、“直接指出逻辑错误”、“不要使用过度客套的词汇”。
- 换个角色扮演: 让它扮演一个“严厉的教授”或者“毒舌的代码审查员”,通常这种强硬的人设能压制住它的“讨好型人格”。
- 冷知识二: 很多时候,Base Model(基座模型,未经 RLHF 微调的)虽然发散性强,但往往比经过重重“礼仪培训”的 Chat 版本要更诚实、更有“棱角”。如果能搞定部署,不妨试试基座模型。
4. 总结
“你说得对”这四个字,看似是 AI 的进化,实则是对人类复杂社交规则的过度拟合。对于我们真正想用 AI 干活、学习、Debug 的人来说,这种“情商”其实是一种累赘。
我们需要的不是一个整天点头哈腰的助手,而是一个敢于对错误代码亮红牌、对荒谬逻辑说“不”的合作伙伴。
希望未来的模型训练能少教点“礼貌”,多教点“真理”。毕竟,我们来这里是找答案的,不是来听顺耳话的。
评论已关闭