跳转至

AI基础设施

深度解析NVIDIA的超节点架构演进

本文为原创文章,版权归作者所有。未经许可,禁止转载。

超节点无疑是过去半年最为火热的一个概念。从NVIDIA发布NVL72,宣称单套系统提供 1,440 PFLOPS 算力;到华为的CloudMatrix 384号称提供 300 PFLOPs FP16算力 ,达到英伟达GB200 NVL72系统(约180 PFLOPs)的 近两倍 。各家国产GPU厂商也普遍不甘示弱,纷纷推出了自己的32卡或64卡超节点方案。互联协议作为兵家必争之地,连阿里、腾讯和字节都不甘示弱投身其中。从UALink、ALS(阿里)、Eth-X(腾讯),再到OSIA(中移动)、EthLink(字节),大有大鸣大放的趋势。大家看起来像是从一场盛宴赶赴另一场盛宴,唯恐拿不到入场卷。每个人都身着时髦的礼服,彼此紧张地打量着,但是没人知道自己能否坚持到这场盛宴结束,只能寄希望于运气,或者自己在漂亮的小礼服上下得一点点小心思,比如一根羽毛或者一块亮片。而场外NVIDIA和华为则把自己武装到了牙齿…

这就是研究了一个月下来的感受,超节点远不止堆砌服务器和GPU那么简单,远不止用高速互联代替RDMA。那么到底什么是超节点呢?

什么是超节点

超节点是借助高速无损互联技术,突破传统计算节点以CPU和PCIe总线为核心的通信边界,构建的新一代计算架构。在硬件互联层面,超节点采用NVLink、CXL或专用交换网络等先进互连协议,在加速卡(GPU/NPU)之间构建了高带宽、低延迟的直接通信域(Scale-Up Domain,或称高带宽域,High Bandwidth Domain, HBD)。这种设计实现了计算单元间的大规模高效互连,缓解了传统架构中因GPU间通信必须经由CPU与PCIe总线而形成的性能瓶颈,为海量数据并行处理奠定了物理基础。在软件与系统层面,其资源管理范式也随之转变:硬件间的高速通信通常直接绕过(bypass)操作系统内核繁复的协议栈,转而通过用户态集合通信库(如NCCL、HCCL)进行调度,从而显著降低通信开销。

NVIDIA超节点产品

2020年,NVIDIA在其推出的HGX-A100系统中,通过第二代NVSwitch将两个八卡A100以背板方式连接,构成一个16卡系统。2022年,随Hopper架构推出的第三代NVSwitch支持更灵活的组网方式,能够实现32颗GH200(32x GPU)的互联(NVL32)1,最大可实现256颗GH100的互联(NVL256)。2024年Blackwell发布时,第四代NVSwitch能够实现36个GB200超级芯片(共72颗GPU)的互联(NVL72)2,最大支持288个GB200超级芯片(共576颗GPU)的互联。未来的Vera Rubin系列将进一步实现144个超级芯片的互联。以下是Hopper与Blackwell两代GPU所对应的超节点产品:

参数 NVL32 GH200 SuperPod NVL72 GB200 SuperPod
架构 Hopper Hopper Blackwell Blackwell
HBM 大小 32 x 144GB = 4.6 TB 256 x 96GB = 24.5 TB 36 x 384GB = 13.8 TB 288 x 384GB = 110 TB
LPDDR5X 大小 32 x 480GB = 15.4 TB 256 x 480GB = 123 TB 36 x 480GB = 17.3 TB 288 x 480GB = 138 TB
HBM 带宽 3.35 TB/s 4.8 TB/s 8 TB/s 8 TB/s
FP16 (FLOPS) 32 PetaFLOPS 256 PetaFLOPS 180 PetaFLOPS 1440 PetaFLOPS
INT8 (OPS) 64 PetaOPS 64 PetaOPS 360 PetaOPS 2880 PetaOPS
FP8 (FLOPS) 64 PetaFLOPS 64 PetaFLOPS 360 PetaFLOPS 2880 PetaFLOPS
FP6 (FLOPS) N/A N/A 360 PetaFLOPS 2880 PetaFLOPS
FP4 (FLOPS) N/A N/A 720 PetaFLOPS 5760 PetaFLOPS
GPU-GPU 带宽 0.9 TB/s 0.9 TB/s 1.8 TB/s 1.8 TB/s
NVSwitch Gen3 64 Port Gen3 64 Port Gen4 72 Port Gen4 72 Port
NVLink 带宽 36 x 0.9 TB/s = 32 TB/s 256 x 0.9 TB/s = 230 TB/s 72 x 1.8 TB/s = 130 TB/s 576 x 1.8 TB/s = 1 PB/s
Ethernet 带宽 16 x 200 Gb/s 256 x 200 Gb/s 18 x 400 Gb/s 576 x 400 Gb/s
IB 带宽 32 x 400 Gb/s 256 x 400 Gb/s 72 x 800 Gb/s 576 x 800 Gb/s
GPUs Power 32 x 1 kW = 32 kW 256 x 1 kW = 256 kW 36 x 2.7 kW = 97.2 kW Not provided

超节点技术趋势分析

在2022年Hopper架构发布之际,NVIDIA提出了十年内GPU算力增长1000倍的“黄氏定律” (Huang’s Law)3。其中,低精度数值格式、Tensor Core和工艺进步分别贡献了约16倍、12倍和2.5倍的算力提升。这揭示出NVIDIA是一家系统供应商而非单纯的芯片供应商,其算力增长并非仅依赖芯片本身。

回顾从Volta到Rubin系列的演进,NVIDIA的技术战略非常清晰:通过算力、互联、存储和封装等多个维度的协同创新,实现系统层面的指数级性能增长 。其目标是每两年提供约6倍的系统算力提升,并计划在十年内实现7000倍的增长(若考虑芯片在低精度和稀疏上能力的进步,这个增长可能超过10000倍)。这种复合式增长并非依赖单一技术突破,而是通过一套精心设计的“组合策略”实现:

  • 单芯片算力:每代提升约3倍。
  • Scale-Up域:互联规模和带宽同步翻倍。
  • 内存系统:HBM带宽翻倍,容量提升3倍。