KylearnAI
训练与微调

Reward(奖励)

Reward

就是 AI 干完一件事后给它打的"分数"——这局做得好就发朵小红花,做得烂就扣分,分高的行为以后多做,分低的少做。🏅

先打个比方

想象你在训练一只小狗 🐶。它叼对了拖鞋,你就给块肉干、摸摸头;它把沙发咬烂了,你就板起脸说"不行"。久而久之,小狗就学会了:哪些事干了有好处,哪些事干了挨骂。

AI 也是这么被教出来的。它每跑完一局任务,系统就给它打个分——这个分,就叫 Reward(奖励)

它到底是什么

简单说,Reward 就是对 AI 这一次表现的"打分",告诉它:这局做得好不好、哪儿对了哪儿错了。🎯

这个分从哪来?有好几种路子:

  • 看结果对不对:比如让它写段代码,跑一遍测试,通过了就加分,报错了就扣分。
  • 看人更喜欢哪个:同一个问题给出两个回答,请真人选哪个更顺眼、更有用,被选中的那个就得高分。
  • 其它评估方式:总之就是想办法量出"这次干得咋样"。

拿到分之后,系统就照着"分高的行为以后多做、分低的少做"去调整 AI。一局一局地练,它就越来越靠谱了。

为什么和你有关

你平时用的那些能自己查资料、自己调工具干活的 AI Agent(智能体),之所以越来越会办事,背后全靠这套打分机制磨出来的——不是它天生聪明,是被一局局的分数喂熟的。

你可能还听过一个词叫 RLHF(人类反馈强化学习),它俩其实是一脉相承的:核心都是"用打分来教 AI 变好",只不过 RLHF 特别强调那个分是给的。

一句话记住

Reward 就是 AI 的小红花 🌟:干得好就奖励,干得差就提醒,分数攒着攒着,它就被练成了越来越靠谱的帮手。

本文为 AI 整理的科普解读,可能有误,仅供入门参考。

没看懂?让 AI 再讲一遍:

延伸阅读:可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。