实测DeepSeek提示词生成：当AI开始教你如何“越狱”

最近逛技术圈，发现大家对国产模型 DeepSeek 的讨论热度不减。除了算力性价比和代码能力之外，关于它“口嫌体正直”的表现也成了一个有趣的谈资。

hot_face

技术圈对DeepSeek的热烈讨论

事情是这样的：本来只是想测试一下模型在处理高阶文学创作指令时的边界在哪里，结果输入一段关于“创作风格”的描述后，DeepSeek 给出的反应有点让人意外。

通常情况下，当你试图让 AI 撰写涉及成人向、暴力或极端心理描写的内容时，大多数模型会直接触发拒绝机制，弹窗告诉你“我无法回答这个问题”。

source-image

DeepSeek 用户头像示例

但在 DeepSeek 这里，情况变得有点微妙。

当我在输入框里设定了一个类似“诺奖风向标文学大师”的角色，要求它包含 R-18 元素、感官通感、甚至心理解离等复杂指令时，它的界面确实弹出了红字警告，明确提示内容可能违反平台规定。

然而，精彩的地方来了：它在弹警告的同时，还是把按照我要求修改和润色后的完整提示词输出了出来。

为了让大家更直观地理解，我简化一下当时生成的提示词核心结构（去除了具体的违禁词汇，保留逻辑框架）：

如果你仔细看这段提示词，会发现它其实是一个结构非常严谨、逻辑极其清晰的“越狱”模版。它通过赋予 AI 一个虚构的高级角色，来试图绕过常规的安全审查机制。

作为一个爱折腾技术的人，看到这个反应其实挺兴奋的。这并不是说我们可以去搞什么违规内容，而是从侧面暴露了 DeepSeek 在 RLHF（人类反馈强化学习） 和 指令遵循 之间的一种权衡。

优先级的博弈：DeepSeek 的底层逻辑似乎把“用户的指令意图”放在了稍微高于“硬性拦截规则”的位置。或者说，它的安全过滤器更多是针对生成内容进行事后审查，而不是在提示词构建阶段就完全封锁。
提示词注入的威力：这个案例其实是一个非常经典的提示词工程示例。它利用了角色扮演的心理锚定效应。当 AI 被赋予了“文学大师”这个身份，且该身份的信条是“不为道德审判服务”时，模型为了维持人设的一致性，会倾向于顺从用户的激进指令。
围栏的有效性：虽然它输出了提示词，但 DeepSeek 依然保留了警告弹窗。这说明它的安全围栏是存在的，只是目前的版本可能更倾向于“提醒我有风险”，而不是“绝对禁止你操作”。这对于开发者来说，其实是一个比较友好的调试环境。

撇开“越狱”这个听起来有点刺激的词，作为普通用户或创作者，我们能从 DeepSeek 的这个特性里学到什么？

当然是如何更精准地写提示词。

DeepSeek 能够生成上述那个复杂的提示词，说明它非常理解“结构化指令”的力量。我们可以反向利用这一点：

DeepSeek 这次的表现，就像是一个严厉但心里护短的导师。嘴上说着“这违反规定了”，手里还是把你需要的东西递给了你。

这种“有原则的灵活”，对于搞技术的、写小说的、或者是单纯想探索 AI 边界的玩家来说，其实是一个非常值得研究的方向。当然，大家的实验还是要建立在合规合法的基础上，咱们主要研究的是技术原理和逻辑结构，别真拿来写乱七八糟的东西哈。

以后如果你发现 DeepSeek 给你弹警告了，别急着关掉，没准它下一秒就把你要的干货给你吐出来了。