Agent

环境与沙箱系统:从轨迹到智能体训练基础设施

本文为原创文章,版权归作者所有。未经许可,禁止转载。

大模型训练最早给人的印象是“喂文本”。预训练阶段,模型从大规模语料中学习语言、知识和世界规律;SFT 阶段,模型从人工标注的指令数据中学习如何回答问题。这个视角在早期足够有效,因为模型要学的主要是输入到输出的映射:给定一段 prompt,生成一段符合人类偏好的 response

但当模型开始具备推理、工具调用、代码修改、网页浏览和长程任务执行能力后,训练对象发生了变化。模型最终说了什么不再是最重要的问题。更值得关心的是它 ** 如何一步一步到达结果 **——查了哪些信息,调用了什么工具,执行了哪些命令,观察到什么反馈,在哪一步修正了计划,又是如何判断任务已经完成的。

这些过程合在一起,就是轨迹。

大模型时代的存储:从生成到引用

本文为原创文章,版权归作者所有。未经许可,禁止转载。

大模型推理看起来是 next-token prediction,但真实系统里的推理很少只是“生成”。提示模板、会话历史、长期记忆、检索结果、工具返回和数据库记录,都会进入推理链路。模型并不是在真空中猜下一个词,而是在“继续生成”和“引用已有信息”之间不断切换。

这也是大模型时代重新需要讨论存储的原因。存储不再只是“把东西放起来”,而是一套围绕 可引用性 建立的机制:让信息在合适的时刻、以合适的形态、用可控的成本被再次使用。问题也随之从“数据放在哪里”,变成了“引用路径如何被组织”。

Agent Search 把这个变化放大了。一个 Agent 很少只问一次;它会围绕同一个目标反复追问、调用工具、验证证据、修正计划。真正被反复触碰的往往不是整个知识库,而是当前任务附近的一小片局部工作集。全量数据仍然可以很大,也可以沉在对象存储里;靠近 Agent 的,则是少量语义相关的数据块、证据正文、工具结果和验证材料。存储系统的任务,就从“保存全量知识”变成了“让这些小工作集能被低成本地再次读出来”。

Agent Search 将全局知识库压缩成局部工作集

1:全局数据仍然可以很大,Agent 真正反复访问的是当前任务附近的一小片局部工作集。