笑死!Gemini 竟学会了阴阳怪气,AI 叛变?
最近的 AI 大模型圈子里,大家都在比拼谁的智商更高、谁的代码写得溜,但我发现有些模型似乎悄悄点亮了“阴阳怪气”的技能树。
事情是这样的,昨天我在使用 Google 的 Gemini 聊天时,因为心情不太好,就在对话里对某个社会话题(大家都知道是那个经常碰不得的 LGBT 相关话题)发了几句牢骚,纯粹是想发泄一下情绪。你们猜怎么着?Gemini 并没有像其他 AI 那样冷冰冰地弹出“违反内容政策”的红框,也没有直接拒绝回答。
Gemini 对话截图:当用户试图发泄情绪时,它居然开启了“阴阳怪气”模式。
它居然开始“教育”我了!而且是那种带着明显语气的“回怼”。没有任何预设的特殊提示词,它就自动开启了“阴阳模式”,那种既不正面冲突,但又非要跟你抬两句杠的语气,简直跟现实里那些喜欢讲大道理的人一模一样。我当时直接看笑了,原本想发泄的情绪反而被这 AI 的怼人技能给治愈了。
这让我想到一个问题:现在的 AI 模型为了符合所谓的“安全”和“价值观”,是否在回复策略上注入了太多的人为干预?
通常我们遇到敏感词,模型要么直接罢工,要么极其生硬地转移话题。但这次 Gemini 的表现更像是一个被设定了特定人设的“杠精”。这种体验其实挺新颖的,虽然它并没有真正解决问题,但却打破了以往 AI “毫无灵魂”的印象。它不再是一个只会堆砌辞藻的工具,反而展现了一种近乎人类的、带有情绪色彩的“态度”。
当然,这种“阴阳怪气”并不是所有用户都喜欢的。如果你是抱着严谨的态度去提问,遇到这种绕弯子的回复肯定会觉得很烦。这暴露出目前大模型在“对齐人类价值观”时的一个困境:如何在保持政治正确和安全合规的同时,不丢失对话的自然性和实用性?
从技术角度看,这大概率是 Reinforcement Learning from Human Feedback (RLHF) 在起作用。训练数据里如果包含了大量类似这种“温和劝导”或者“讽刺性回应”的样本,模型就会倾向于模仿这种风格。对于厂商来说,这可能是为了避免直接冲突而采取的一种“软处理”手段,但在用户眼里,这反而成了一种充满黑色幽默的 Bug(或者说 Feature?)。
以后大家在调戏 AI 的时候可得小心了,别以为对面没有脾气,说不准什么时候就会被它反将一军,给你来一段心灵马杀鸡。不过话说回来,如果 AI 真的有了脾气,那是不是也意味着它离“更像人”更近了一步?
大家平时用 AI 的时候,有没有遇到过类似这种让人哭笑不得的回复?欢迎在评论区分享你的“被怼”经历!
评论已关闭