跳转至

2026

本文为原创文章,版权归作者所有。未经许可,禁止转载。

审阅草稿

这篇文章目前是供合作者审阅的 draft 版本,结构、图示和技术表述仍可能继续调整。

大模型推理看起来是 next-token prediction:模型根据已有上下文预测下一个 token,再不断重复这个过程。但在真实系统里,推理很少只是“生成”。尤其在 Agentic Search 场景中,提示模板、会话历史、长期记忆、检索结果、工具返回、缓存产物与数据库记录,都会以不同形态进入推理链路。模型并不是在真空中猜下一个词,而是在“继续生成”和“引用既有信息”之间不断做选择。

因此,大模型时代的存储不再只是“把东西放起来”。更准确地说,存储是一套围绕**可引用性**建立的机制:让信息在合适的时刻、以合适的形态、用可控的成本被再次使用,从而改变推理的自由度与不确定性。