KylearnAI
智能体Agent

Policy(策略)

Policy

同样的事,不同的人有不同的"行事作风"。Policy 就是一个 AI 智能体的那套作风——遇到一种情况,它会偏向怎么做。

先打个比方

同一个公司,来了一笔棘手的客户投诉。

老张的作风是:先道歉、先安抚、再慢慢谈。小李的作风是:先把规则甩出来,公事公办。两个人面对的是同一种情况,但出手方式完全不同——这套"遇到 X 就倾向于做 Y"的个人作风,就是这个人的 Policy(策略)。🤔

AI 智能体也有自己的作风。

它到底是什么

简单说,Policy 就是智能体的行事风格:给它一个情境,它在好几个可以做的动作里,会偏向选哪个。

注意是"偏向",不是"死板地必选"。同样让它查资料,有的智能体一上来就疯狂调搜索工具,有的则先想清楚再动手——这就是 Policy 不同。在更硬核的"强化学习"里,这词定义更严,能写成"对每个可能动作给一个概率",但你只要记住一句话:Policy = AI 做事的倾向和脾气。🧭

这套脾气从哪来?一部分天生"长"在大模型(llm)的参数里;另一部分则被你的提示词(prompt)、给它配的工具、它的记忆、还有那个一轮轮推进任务的执行循环现场捏出来。所以同一个模型,换套提示词,作风立马变样。

为什么和你有关

最容易搞混的一点:Policy 不等于智能体本身。

智能体(agent)是那个真正在环境里"动手干活"的完整系统——它有模型大脑、有工具的"手"。而 Policy 只是它表现出来的那套做事风格,是"作风",不是"那个人"。就像你不会把"老张说话客气"当成"老张这个人"。

懂了这层,你以后调教 AI 才有抓手:嫌它太莽撞?给它换个更谨慎的提示词。嫌它太保守?放开点工具权限。你拧的这些旋钮,本质上都是在改它的 Policy。🎛️

一句话记住

Policy 是智能体的"行事作风"——不是它本身,而是它遇事偏向怎么出手。

本文为 AI 整理的科普解读,可能有误,仅供入门参考。

没看懂?让 AI 再讲一遍:

延伸阅读:可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。