训练与微调

Reward（奖励）

Reward

就是 AI 干完一件事后给它打的"分数"——这局做得好就发朵小红花，做得烂就扣分，分高的行为以后多做，分低的少做。🏅

先打个比方

想象你在训练一只小狗 🐶。它叼对了拖鞋，你就给块肉干、摸摸头；它把沙发咬烂了，你就板起脸说"不行"。久而久之，小狗就学会了：哪些事干了有好处，哪些事干了挨骂。

AI 也是这么被教出来的。它每跑完一局任务，系统就给它打个分——这个分，就叫 Reward（奖励）。

简单说，Reward 就是对 AI 这一次表现的"打分"，告诉它：这局做得好不好、哪儿对了哪儿错了。🎯

这个分从哪来？有好几种路子：

拿到分之后，系统就照着"分高的行为以后多做、分低的少做"去调整 AI。一局一局地练，它就越来越靠谱了。

你平时用的那些能自己查资料、自己调工具干活的 AI Agent（智能体），之所以越来越会办事，背后全靠这套打分机制磨出来的——不是它天生聪明，是被一局局的分数喂熟的。

你可能还听过一个词叫 RLHF（人类反馈强化学习），它俩其实是一脉相承的：核心都是"用打分来教 AI 变好"，只不过 RLHF 特别强调那个分是人给的。

Reward 就是 AI 的小红花 🌟：干得好就奖励，干得差就提醒，分数攒着攒着，它就被练成了越来越靠谱的帮手。

本文为 AI 整理的科普解读，可能有误，仅供入门参考。

没看懂？让 AI 再讲一遍：

延伸阅读：可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。