环境与沙箱系统:从轨迹到智能体训练基础设施
本文为原创文章,版权归作者所有。未经许可,禁止转载。
大模型训练最早给人的印象是“喂文本”。预训练阶段,模型从大规模语料中学习语言、知识和世界规律;SFT 阶段,模型从人工标注的指令数据中学习如何回答问题。这个视角在早期足够有效,因为模型要学的主要是输入到输出的映射:给定一段 prompt,生成一段符合人类偏好的 response。
但当模型开始具备推理、工具调用、代码修改、网页浏览和长程任务执行能力后,训练对象发生了变化。模型最终说了什么不再是最重要的问题。更值得关心的是它 ** 如何一步一步到达结果 **——查了哪些信息,调用了什么工具,执行了哪些命令,观察到什么反馈,在哪一步修正了计划,又是如何判断任务已经完成的。
这些过程合在一起,就是轨迹。