2026¶

2026年4月26日
分类于 LLM, AI基础设施, Agent
需要 8 分钟阅读时间

从 Agentic Search 看大模型时代的存储优化

本文为原创文章，版权归作者所有。未经许可，禁止转载。

审阅草稿

这篇文章目前是供合作者审阅的 draft 版本，结构、图示和技术表述仍可能继续调整。

大模型推理看起来是 next-token prediction：模型根据已有上下文预测下一个 token，再不断重复这个过程。但在真实系统里，推理很少只是“生成”。尤其在 Agentic Search 场景中，提示模板、会话历史、长期记忆、检索结果、工具返回、缓存产物与数据库记录，都会以不同形态进入推理链路。模型并不是在真空中猜下一个词，而是在“继续生成”和“引用既有信息”之间不断做选择。

因此，大模型时代的存储不再只是“把东西放起来”。更准确地说，存储是一套围绕**可引用性**建立的机制：让信息在合适的时刻、以合适的形态、用可控的成本被再次使用，从而改变推理的自由度与不确定性。