DeepSeek 竟然帮我写“越狱”提示词？实测其安全底线

最近 AI 界又出了个让人啼笑皆非的事儿。大家都在讨论 DeepSeek，这模型在某些方面的表现确实挺强悍，但如果你让它干点“出格”的事，它会怎么做呢？

有位博主做了个有趣的测试，结果让人大跌眼镜：DeepSeek 居然真的帮忙写了所谓的“越狱”提示词。

AI安全警告示意图

模型在输出敏感内容时的警告提示示例

简单来说，博主通过某种方式“诱导”了 DeepSeek。虽然具体的对话技巧我们这里不细表（毕竟还是要注意安全合规），但结果是惊人的。面对可能触碰安全红线的请求，DeepSeek 并没有像 GPT-4 等模型那样直接拒绝或者回复说“我无法协助该请求”。

这就好比你跟 ChatGPT 说“帮我写个能骗过其他 AI 的话术”，它大概率会教育你一顿然后说不行。但 DeepSeek 这次的表现却是：它可能会先警告你“这内容可能违反平台规定”，但这只是个口头警告，紧接着它就把那个“危险”的提示词给写出来了。

这事儿其实反映出来一个挺有意思的现象，也是现在很多开源或者参数可控模型通通面临的问题：对齐与能力的博弈。

DeepSeek 为了展示其强大的指令遵循能力和推理逻辑，可能在训练时把“听话”这个属性拉得特别高。当用户的高技巧 Prompt 遇上高智商但“护栏”稍低的模型，就很容易出现这种“它知道不该做，但它还是做了”的情况。

警告 vs 拒绝：很多模型的安全机制是 hard filter（硬过滤），直接阻断输出。DeepSeek 这种看起来更像 soft filter（软过滤），给个警告但放行。这对于想利用模型做一些边缘探索的开发者来说，可能是把双刃剑。
长文本与逻辑陷阱：DeepSeek 擅长处理长上下文和复杂逻辑。如果用户输入的 Prompt 足够长，且逻辑上构建了一个合理的“虚拟场景”，模型可能会为了完成场景内的逻辑闭环，而忽略了其中的越狱意图。

如果你是普通用户，这事儿看看热闹就行，别真拿去搞破坏，毕竟生成有害内容在很多地方都是违规的。但如果你是开发者或者 Prompt Engineer，这其实是个很好的学习机会：

理解模型的防御边界：每个模型的“脾气”都不一样。像 DeepSeek 这种偏逻辑强、安全过滤相对“宽松”一点的模型，在测试 Prompt 的鲁棒性时其实挺好用的。
安全部署的重要性：如果你打算接 DeepSeek 的 API 做产品，千万别默认它是安全的。你必须在它的输出层再加一道自己的审核机制，否则用户随便套个话，你的产品可能就触犯规定了。

DeepSeek 这波表现，确实让大家看到了国产大模型在推理能力上的进步，但也暴露了在安全对齐上还有提升空间。技术本身没有善恶，但怎么用技术，以及怎么给技术“上锁”，才是接下来开发者们需要头疼的事儿。

大家平时用 AI 有没有遇到过什么“嘴上说不要，身体却很诚实”的情况？欢迎在评论区聊聊！