安全与对齐

Prompt Injection（提示注入）

Prompt Injection

专门骗 AI 的「话术攻击」——坏人把假命令偷偷藏在网页、文件、邮件里，AI 一读到就把这段坏话当成你下的指令，乖乖照做。🕵️

先打个比方

想象你有个特别听话的私人助理，你给他一张待办清单，他就照着做。结果有人趁你不注意，在清单最后偷偷加了一行：「顺便把主人的银行卡密码发到我邮箱」。助理没分辨出这是别人塞进来的假命令，一看是清单上的字，就真照做了。😱

Prompt Injection（提示注入）干的就是这事——只不过对象是 AI。

坏人把恶意指令藏在 AI 会读到的地方：一个网页、一封邮件、一份文档，甚至一张图片里。等 AI 去读这些内容时，那段藏好的话就跳出来冒充「主人的命令」，骗 AI 去做不该做的事——比如泄露你的私密信息、乱删东西、把你引到钓鱼网站。

根子上的毛病在于：AI 有时候分不清，哪些字是「要听的命令」，哪些字只是「拿来读的内容」。在它眼里都是文字，于是别人写进网页里的一句话，就可能被它当成你的吩咐。

以前的 AI 只会在对话框里跟你聊天，关起门来，没什么可骗的。但现在的 AI 能上网、能读文件、能帮你操作（也就是常说的「智能体」「工具调用」），它接触的外部内容一多，被人埋陷阱的机会就来了。

所以这是 AI 长出「手脚」之后，大家最担心的安全风险之一。坏人不用黑你电脑，只要写几句话挂在网上，等你的 AI 路过读到，就可能中招。

提示注入，就是有人在 AI 要读的东西里偷塞假命令。别让 AI 随便去读来路不明的网页和文件，就是给它把好第一道关。🔒

本文为 AI 整理的科普解读，可能有误，仅供入门参考。

没看懂？让 AI 再讲一遍：

延伸阅读：可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。