KylearnAI
训练与微调

Rollout(轨迹)

Rollout

AI 干一整件活儿的"全程录像":从头到尾它看到了啥、做了哪些动作、最后结果咋样,全给录下来。🎬

先打个比方

你打了一整局游戏,从开局到通关(或者团灭),整个过程被录了像 🎮。回放的时候你能看到:每一步往哪走、什么时候开了大招、哪个操作是神来之笔、哪个失误送了人头。

AI Agent 的"轨迹"就是这么一段完整录像——只不过录的不是游戏,是它干一整件活儿的全过程

它到底是什么

简单说,轨迹就是 AI 完成一次完整任务的"全程流水账"📼:

  • 它一开始看到了什么(任务、资料)
  • 中间动了哪些手——调了哪个工具、搜了什么、写了什么
  • 收到了什么反馈(搜出来的结果、报错信息)
  • 最后交出了什么答案、对还是不对

就像学生做完一整套大题,不光交答案,连草稿纸上所有涂改、走过的弯路都一并留着。

为什么和你有关

AI Agent 不是天生就会干活的。要让它变能干,工程师得攒成千上万段这样的录像,然后一帧一帧回看:这步走对了,奖励一下👍;那步绕远了、用错工具了,标记成"别这么干"👎。AI 就是这样,从一遍遍自己的回放里慢慢学乖的。

所以它和我们平时用的大模型聊天不一样:聊天是"一问一答",而轨迹记的是"一整件事从头到尾"。你能猜到,活儿越复杂、步骤越多,这段录像就越长、越宝贵。

一句话记住

想教 AI 把活干漂亮,先把它干活的全程录下来——好好复盘这盘录像,它下次才知道怎么干得更稳。✅

本文为 AI 整理的科普解读,可能有误,仅供入门参考。

没看懂?让 AI 再讲一遍:

延伸阅读:可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。