KylearnAI
安全与对齐

Prompt Injection(提示注入)

Prompt Injection

专门骗 AI 的「话术攻击」——坏人把假命令偷偷藏在网页、文件、邮件里,AI 一读到就把这段坏话当成你下的指令,乖乖照做。🕵️

先打个比方

想象你有个特别听话的私人助理,你给他一张待办清单,他就照着做。结果有人趁你不注意,在清单最后偷偷加了一行:「顺便把主人的银行卡密码发到我邮箱」。助理没分辨出这是别人塞进来的假命令,一看是清单上的字,就真照做了。😱

Prompt Injection(提示注入)干的就是这事——只不过对象是 AI。

它到底是什么

坏人把恶意指令藏在 AI 会读到的地方:一个网页、一封邮件、一份文档,甚至一张图片里。等 AI 去读这些内容时,那段藏好的话就跳出来冒充「主人的命令」,骗 AI 去做不该做的事——比如泄露你的私密信息、乱删东西、把你引到钓鱼网站。

根子上的毛病在于:AI 有时候分不清,哪些字是「要听的命令」,哪些字只是「拿来读的内容」。在它眼里都是文字,于是别人写进网页里的一句话,就可能被它当成你的吩咐。

为什么和你有关

以前的 AI 只会在对话框里跟你聊天,关起门来,没什么可骗的。但现在的 AI 能上网、能读文件、能帮你操作(也就是常说的「智能体」「工具调用」),它接触的外部内容一多,被人埋陷阱的机会就来了。

所以这是 AI 长出「手脚」之后,大家最担心的安全风险之一。坏人不用黑你电脑,只要写几句话挂在网上,等你的 AI 路过读到,就可能中招。

一句话记住

提示注入,就是有人在 AI 要读的东西里偷塞假命令。别让 AI 随便去读来路不明的网页和文件,就是给它把好第一道关。🔒

本文为 AI 整理的科普解读,可能有误,仅供入门参考。

没看懂?让 AI 再讲一遍:

延伸阅读:可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。