AI基础设施

环境与沙箱系统:从轨迹到智能体训练基础设施

本文为原创文章,版权归作者所有。未经许可,禁止转载。

大模型训练最早给人的印象是“喂文本”。预训练阶段,模型从大规模语料中学习语言、知识和世界规律;SFT 阶段,模型从人工标注的指令数据中学习如何回答问题。这个视角在早期足够有效,因为模型要学的主要是输入到输出的映射:给定一段 prompt,生成一段符合人类偏好的 response

但当模型开始具备推理、工具调用、代码修改、网页浏览和长程任务执行能力后,训练对象发生了变化。模型最终说了什么不再是最重要的问题。更值得关心的是它 ** 如何一步一步到达结果 **——查了哪些信息,调用了什么工具,执行了哪些命令,观察到什么反馈,在哪一步修正了计划,又是如何判断任务已经完成的。

这些过程合在一起,就是轨迹。

大模型时代的存储:从生成到引用

本文为原创文章,版权归作者所有。未经许可,禁止转载。

大模型推理看起来是 next-token prediction,但真实系统里的推理很少只是“生成”。提示模板、会话历史、长期记忆、检索结果、工具返回和数据库记录,都会进入推理链路。模型并不是在真空中猜下一个词,而是在“继续生成”和“引用已有信息”之间不断切换。

这也是大模型时代重新需要讨论存储的原因。存储不再只是“把东西放起来”,而是一套围绕 可引用性 建立的机制:让信息在合适的时刻、以合适的形态、用可控的成本被再次使用。问题也随之从“数据放在哪里”,变成了“引用路径如何被组织”。

Agent Search 把这个变化放大了。一个 Agent 很少只问一次;它会围绕同一个目标反复追问、调用工具、验证证据、修正计划。真正被反复触碰的往往不是整个知识库,而是当前任务附近的一小片局部工作集。全量数据仍然可以很大,也可以沉在对象存储里;靠近 Agent 的,则是少量语义相关的数据块、证据正文、工具结果和验证材料。存储系统的任务,就从“保存全量知识”变成了“让这些小工作集能被低成本地再次读出来”。

Agent Search 将全局知识库压缩成局部工作集

1:全局数据仍然可以很大,Agent 真正反复访问的是当前任务附近的一小片局部工作集。

深度解析 NVIDIA 的超节点架构演进

本文为原创文章,版权归作者所有。未经许可,禁止转载。

超节点无疑是过去半年最为火热的一个概念。从 NVIDIA 发布 NVL72,宣称单套系统提供 1,440 PFLOPS 算力;到华为的 CloudMatrix 384 号称提供 300 PFLOPs FP16 算力 ,达到英伟达 GB200 NVL72 系统(约 180 PFLOPs)的 近两倍 。各家国产 GPU 厂商也普遍不甘示弱,纷纷推出了自己的 32 卡或 64 卡超节点方案。互联协议作为兵家必争之地,连阿里、腾讯和字节都不甘示弱投身其中。从 UALink、ALS(阿里、Eth-X(腾讯,再到 OSIA(中移动、EthLink(字节,大有大鸣大放的趋势。大家看起来像是从一场盛宴赶赴另一场盛宴,唯恐拿不到入场卷。每个人都身着时髦的礼服,彼此紧张地打量着,但是没人知道自己能否坚持到这场盛宴结束,只能寄希望于运气,或者自己在漂亮的小礼服上下得一点点小心思,比如一根羽毛或者一块亮片。而场外 NVIDIA 和华为则把自己武装到了牙齿…

这就是研究了一个月下来的感受,超节点远不止堆砌服务器和 GPU 那么简单,远不止用高速互联代替 RDMA。那么到底什么是超节点呢?

什么是超节点

超节点是借助高速无损互联技术,突破传统计算节点以 CPU PCIe 总线为核心的通信边界,构建的新一代计算架构。在硬件互联层面,超节点采用 NVLinkCXL 或专用交换网络等先进互连协议,在加速卡(GPU/NPU)之间构建了高带宽、低延迟的直接通信域(Scale-Up Domain,或称高带宽域,High Bandwidth Domain, HBD。这种设计实现了计算单元间的大规模高效互连,缓解了传统架构中因 GPU 间通信必须经由 CPU PCIe 总线而形成的性能瓶颈,为海量数据并行处理奠定了物理基础。在软件与系统层面,其资源管理范式也随之转变:硬件间的高速通信通常直接绕过(bypass)操作系统内核繁复的协议栈,转而通过用户态集合通信库(如 NCCL、HCCL)进行调度,从而显著降低通信开销。

NVIDIA 超节点产品

2020 年,NVIDIA 在其推出的 HGX-A100 系统中,通过第二代 NVSwitch 将两个八卡 A100 以背板方式连接,构成一个 16 卡系统。2022 年,随 Hopper 架构推出的第三代 NVSwitch 支持更灵活的组网方式,能够实现 32 GH200(32x GPU)的互联(NVL32)1,最大可实现 256 GH100 的互联(NVL2562024 Blackwell 发布时,第四代 NVSwitch 能够实现 36 GB200 超级芯片(共 72 GPU)的互联(NVL72)2,最大支持 288 GB200 超级芯片(共 576 GPU)的互联。未来的 Vera Rubin 系列将进一步实现 144 个超级芯片的互联。以下是 Hopper Blackwell 两代 GPU 所对应的超节点产品:

参数 NVL32 GH200 SuperPod NVL72 GB200 SuperPod
架构 Hopper Hopper Blackwell Blackwell
HBM 大小 32 x 144GB = 4.6 TB 256 x 96GB = 24.5 TB 36 x 384GB = 13.8 TB 288 x 384GB = 110 TB
LPDDR5X 大小 32 x 480GB = 15.4 TB 256 x 480GB = 123 TB 36 x 480GB = 17.3 TB 288 x 480GB = 138 TB
HBM 带宽 3.35 TB/s 4.8 TB/s 8 TB/s 8 TB/s
FP16 (FLOPS) 32 PetaFLOPS 256 PetaFLOPS 180 PetaFLOPS 1440 PetaFLOPS
INT8 (OPS) 64 PetaOPS 64 PetaOPS 360 PetaOPS 2880 PetaOPS
FP8 (FLOPS) 64 PetaFLOPS 64 PetaFLOPS 360 PetaFLOPS 2880 PetaFLOPS
FP6 (FLOPS) N/A N/A 360 PetaFLOPS 2880 PetaFLOPS
FP4 (FLOPS) N/A N/A 720 PetaFLOPS 5760 PetaFLOPS
GPU-GPU 带宽 0.9 TB/s 0.9 TB/s 1.8 TB/s 1.8 TB/s
NVSwitch Gen3 64 Port Gen3 64 Port Gen4 72 Port Gen4 72 Port
NVLink 带宽 36 x 0.9 TB/s = 32 TB/s 256 x 0.9 TB/s = 230 TB/s 72 x 1.8 TB/s = 130 TB/s 576 x 1.8 TB/s = 1 PB/s
Ethernet 带宽 16 x 200 Gb/s 256 x 200 Gb/s 18 x 400 Gb/s 576 x 400 Gb/s
IB 带宽 32 x 400 Gb/s 256 x 400 Gb/s 72 x 800 Gb/s 576 x 800 Gb/s
GPUs Power 32 x 1 kW = 32 kW 256 x 1 kW = 256 kW 36 x 2.7 kW = 97.2 kW Not provided

超节点技术趋势分析

2022 Hopper 架构发布之际,NVIDIA 提出了十年内 GPU 算力增长 1000 倍的“黄氏定律” (Huang’s Law)3。其中,低精度数值格式、Tensor Core 和工艺进步分别贡献了约 16 倍、12 倍和 2.5 倍的算力提升。这揭示出 NVIDIA 是一家系统供应商而非单纯的芯片供应商,其算力增长并非仅依赖芯片本身。

回顾从 Volta Rubin 系列的演进,NVIDIA 的技术战略非常清晰:通过算力、互联、存储和封装等多个维度的协同创新,实现系统层面的指数级性能增长 。其目标是每两年提供约 6 倍的系统算力提升,并计划在十年内实现 7000 倍的增长(若考虑芯片在低精度和稀疏上能力的进步,这个增长可能超过 10000 。这种复合式增长并非依赖单一技术突破,而是通过一套精心设计的“组合策略”实现:

  • 单芯片算力:每代提升约 3 倍。
  • Scale-Up :互联规模和带宽同步翻倍。
  • 内存系统HBM 带宽翻倍,容量提升 3 倍。