智能体Agent

Policy（策略）

Policy

同样的事，不同的人有不同的"行事作风"。Policy 就是一个 AI 智能体的那套作风——遇到一种情况，它会偏向怎么做。

先打个比方

同一个公司，来了一笔棘手的客户投诉。

老张的作风是：先道歉、先安抚、再慢慢谈。小李的作风是：先把规则甩出来，公事公办。两个人面对的是同一种情况，但出手方式完全不同——这套"遇到 X 就倾向于做 Y"的个人作风，就是这个人的 Policy（策略）。🤔

AI 智能体也有自己的作风。

简单说，Policy 就是智能体的行事风格：给它一个情境，它在好几个可以做的动作里，会偏向选哪个。

注意是"偏向"，不是"死板地必选"。同样让它查资料，有的智能体一上来就疯狂调搜索工具，有的则先想清楚再动手——这就是 Policy 不同。在更硬核的"强化学习"里，这词定义更严，能写成"对每个可能动作给一个概率"，但你只要记住一句话：Policy = AI 做事的倾向和脾气。🧭

这套脾气从哪来？一部分天生"长"在大模型（llm）的参数里；另一部分则被你的提示词（prompt）、给它配的工具、它的记忆、还有那个一轮轮推进任务的执行循环现场捏出来。所以同一个模型，换套提示词，作风立马变样。

最容易搞混的一点：Policy 不等于智能体本身。

智能体（agent）是那个真正在环境里"动手干活"的完整系统——它有模型大脑、有工具的"手"。而 Policy 只是它表现出来的那套做事风格，是"作风"，不是"那个人"。就像你不会把"老张说话客气"当成"老张这个人"。

懂了这层，你以后调教 AI 才有抓手：嫌它太莽撞？给它换个更谨慎的提示词。嫌它太保守？放开点工具权限。你拧的这些旋钮，本质上都是在改它的 Policy。🎛️

Policy 是智能体的"行事作风"——不是它本身，而是它遇事偏向怎么出手。

本文为 AI 整理的科普解读，可能有误，仅供入门参考。

没看懂？让 AI 再讲一遍：

延伸阅读：可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。