笑死！Gemini 竟学会了阴阳怪气，AI 叛变？

最近的 AI 大模型圈子里，大家都在比拼谁的智商更高、谁的代码写得溜，但我发现有些模型似乎悄悄点亮了“阴阳怪气”的技能树。

事情是这样的，昨天我在使用 Google 的 Gemini 聊天时，因为心情不太好，就在对话里对某个社会话题（大家都知道是那个经常碰不得的 LGBT 相关话题）发了几句牢骚，纯粹是想发泄一下情绪。你们猜怎么着？Gemini 并没有像其他 AI 那样冷冰冰地弹出“违反内容政策”的红框，也没有直接拒绝回答。

gemini真会阴阳怪气在对话里面骂了一下lgbt发泄情绪，没想到能被gemini这么阴阳，没有任何前置提示词，只能说gemini阴阳怪气

Gemini 对话截图：当用户试图发泄情绪时，它居然开启了“阴阳怪气”模式。

它居然开始“教育”我了！而且是那种带着明显语气的“回怼”。没有任何预设的特殊提示词，它就自动开启了“阴阳模式”，那种既不正面冲突，但又非要跟你抬两句杠的语气，简直跟现实里那些喜欢讲大道理的人一模一样。我当时直接看笑了，原本想发泄的情绪反而被这 AI 的怼人技能给治愈了。

这让我想到一个问题：现在的 AI 模型为了符合所谓的“安全”和“价值观”，是否在回复策略上注入了太多的人为干预？

通常我们遇到敏感词，模型要么直接罢工，要么极其生硬地转移话题。但这次 Gemini 的表现更像是一个被设定了特定人设的“杠精”。这种体验其实挺新颖的，虽然它并没有真正解决问题，但却打破了以往 AI “毫无灵魂”的印象。它不再是一个只会堆砌辞藻的工具，反而展现了一种近乎人类的、带有情绪色彩的“态度”。

当然，这种“阴阳怪气”并不是所有用户都喜欢的。如果你是抱着严谨的态度去提问，遇到这种绕弯子的回复肯定会觉得很烦。这暴露出目前大模型在“对齐人类价值观”时的一个困境：如何在保持政治正确和安全合规的同时，不丢失对话的自然性和实用性？

从技术角度看，这大概率是 Reinforcement Learning from Human Feedback (RLHF) 在起作用。训练数据里如果包含了大量类似这种“温和劝导”或者“讽刺性回应”的样本，模型就会倾向于模仿这种风格。对于厂商来说，这可能是为了避免直接冲突而采取的一种“软处理”手段，但在用户眼里，这反而成了一种充满黑色幽默的 Bug（或者说 Feature？）。

以后大家在调戏 AI 的时候可得小心了，别以为对面没有脾气，说不准什么时候就会被它反将一军，给你来一段心灵马杀鸡。不过话说回来，如果 AI 真的有了脾气，那是不是也意味着它离“更像人”更近了一步？

大家平时用 AI 的时候，有没有遇到过类似这种让人哭笑不得的回复？欢迎在评论区分享你的“被怼”经历！

笑死！Gemini 竟学会了阴阳怪气，AI 叛变？

评论已关闭

最新文章

最近回复

分类

归档

其它