分布式训练¶

2025年10月1日
分类于 AI基础设施, 分布式训练
需要 12 分钟阅读时间

深度解析 NVIDIA 的超节点架构演进

本文为原创文章，版权归作者所有。未经许可，禁止转载。

超节点无疑是过去半年最为火热的一个概念。从 NVIDIA 发布 NVL72，宣称单套系统提供 1,440 PFLOPS 算力；到华为的 CloudMatrix 384 号称提供 300 PFLOPs FP16 算力 ，达到英伟达 GB200 NVL72 系统（约 180 PFLOPs）的 近两倍 。各家国产 GPU 厂商也普遍不甘示弱，纷纷推出了自己的 32 卡或 64 卡超节点方案。互联协议作为兵家必争之地，连阿里、腾讯和字节都不甘示弱投身其中。从 UALink、ALS（阿里）、Eth-X（腾讯），再到 OSIA（中移动）、EthLink（字节），大有大鸣大放的趋势。大家看起来像是从一场盛宴赶赴另一场盛宴，唯恐拿不到入场卷。每个人都身着时髦的礼服，彼此紧张地打量着，但是没人知道自己能否坚持到这场盛宴结束，只能寄希望于运气，或者自己在漂亮的小礼服上下得一点点小心思，比如一根羽毛或者一块亮片。而场外 NVIDIA 和华为则把自己武装到了牙齿…

这就是研究了一个月下来的感受，超节点远不止堆砌服务器和 GPU 那么简单，远不止用高速互联代替 RDMA。那么到底什么是超节点呢？

什么是超节点

超节点是借助高速无损互联技术，突破传统计算节点以 CPU 和 PCIe 总线为核心的通信边界，构建的新一代计算架构。在硬件互联层面，超节点采用 NVLink、CXL 或专用交换网络等先进互连协议，在加速卡（GPU/NPU）之间构建了高带宽、低延迟的直接通信域（Scale-Up Domain，或称高带宽域，High Bandwidth Domain, HBD）。这种设计实现了计算单元间的大规模高效互连，缓解了传统架构中因 GPU 间通信必须经由 CPU 与 PCIe 总线而形成的性能瓶颈，为海量数据并行处理奠定了物理基础。在软件与系统层面，其资源管理范式也随之转变：硬件间的高速通信通常直接绕过（bypass）操作系统内核繁复的协议栈，转而通过用户态集合通信库（如 NCCL、HCCL）进行调度，从而显著降低通信开销。

NVIDIA 超节点产品

2020 年，NVIDIA 在其推出的 HGX-A100 系统中，通过第二代 NVSwitch 将两个八卡 A100 以背板方式连接，构成一个 16 卡系统。2022 年，随 Hopper 架构推出的第三代 NVSwitch 支持更灵活的组网方式，能够实现 32 颗 GH200（32x GPU）的互联（NVL32）¹，最大可实现 256 颗 GH100 的互联（NVL256）。2024 年 Blackwell 发布时，第四代 NVSwitch 能够实现 36 个 GB200 超级芯片（共 72 颗 GPU）的互联（NVL72）²，最大支持 288 个 GB200 超级芯片（共 576 颗 GPU）的互联。未来的 Vera Rubin 系列将进一步实现 144 个超级芯片的互联。以下是 Hopper 与 Blackwell 两代 GPU 所对应的超节点产品：

参数	NVL32	GH200 SuperPod	NVL72	GB200 SuperPod
架构	Hopper	Hopper	Blackwell	Blackwell
HBM 大小	32 x 144GB = 4.6 TB	256 x 96GB = 24.5 TB	36 x 384GB = 13.8 TB	288 x 384GB = 110 TB
LPDDR5X 大小	32 x 480GB = 15.4 TB	256 x 480GB = 123 TB	36 x 480GB = 17.3 TB	288 x 480GB = 138 TB
HBM 带宽	3.35 TB/s	4.8 TB/s	8 TB/s	8 TB/s
FP16 (FLOPS)	32 PetaFLOPS	256 PetaFLOPS	180 PetaFLOPS	1440 PetaFLOPS
INT8 (OPS)	64 PetaOPS	64 PetaOPS	360 PetaOPS	2880 PetaOPS
FP8 (FLOPS)	64 PetaFLOPS	64 PetaFLOPS	360 PetaFLOPS	2880 PetaFLOPS
FP6 (FLOPS)	N/A	N/A	360 PetaFLOPS	2880 PetaFLOPS
FP4 (FLOPS)	N/A	N/A	720 PetaFLOPS	5760 PetaFLOPS
GPU-GPU 带宽	0.9 TB/s	0.9 TB/s	1.8 TB/s	1.8 TB/s
NVSwitch	Gen3 64 Port	Gen3 64 Port	Gen4 72 Port	Gen4 72 Port
NVLink 带宽	36 x 0.9 TB/s = 32 TB/s	256 x 0.9 TB/s = 230 TB/s	72 x 1.8 TB/s = 130 TB/s	576 x 1.8 TB/s = 1 PB/s
Ethernet 带宽	16 x 200 Gb/s	256 x 200 Gb/s	18 x 400 Gb/s	576 x 400 Gb/s
IB 带宽	32 x 400 Gb/s	256 x 400 Gb/s	72 x 800 Gb/s	576 x 800 Gb/s
GPUs Power	32 x 1 kW = 32 kW	256 x 1 kW = 256 kW	36 x 2.7 kW = 97.2 kW	Not provided

超节点技术趋势分析

在 2022 年 Hopper 架构发布之际，NVIDIA 提出了十年内 GPU 算力增长 1000 倍的“黄氏定律” (Huang’s Law)³。其中，低精度数值格式、Tensor Core 和工艺进步分别贡献了约 16 倍、12 倍和 2.5 倍的算力提升。这揭示出 NVIDIA 是一家系统供应商而非单纯的芯片供应商，其算力增长并非仅依赖芯片本身。

回顾从 Volta 到 Rubin 系列的演进，NVIDIA 的技术战略非常清晰：通过算力、互联、存储和封装等多个维度的协同创新，实现系统层面的指数级性能增长 。其目标是每两年提供约 6 倍的系统算力提升，并计划在十年内实现 7000 倍的增长（若考虑芯片在低精度和稀疏上能力的进步，这个增长可能超过 10000 倍）。这种复合式增长并非依赖单一技术突破，而是通过一套精心设计的“组合策略”实现：

单芯片算力：每代提升约 3 倍。
Scale-Up 域：互联规模和带宽同步翻倍。
内存系统：HBM 带宽翻倍，容量提升 3 倍。