深度解析NVIDIA的超节点架构演进
本文为原创文章,版权归作者所有。未经许可,禁止转载。
超节点无疑是过去半年最为火热的一个概念。从NVIDIA发布NVL72,宣称单套系统提供 1,440 PFLOPS 算力;到华为的CloudMatrix 384号称提供 300 PFLOPs FP16算力 ,达到英伟达GB200 NVL72系统(约180 PFLOPs)的 近两倍 。各家国产GPU厂商也普遍不甘示弱,纷纷推出了自己的32卡或64卡超节点方案。互联协议作为兵家必争之地,连阿里、腾讯和字节都不甘示弱投身其中。从UALink、ALS(阿里)、Eth-X(腾讯),再到OSIA(中移动)、EthLink(字节),大有大鸣大放的趋势。大家看起来像是从一场盛宴赶赴另一场盛宴,唯恐拿不到入场卷。每个人都身着时髦的礼服,彼此紧张地打量着,但是没人知道自己能否坚持到这场盛宴结束,只能寄希望于运气,或者自己在漂亮的小礼服上下得一点点小心思,比如一根羽毛或者一块亮片。而场外NVIDIA和华为则把自己武装到了牙齿…
这就是研究了一个月下来的感受,超节点远不止堆砌服务器和GPU那么简单,远不止用高速互联代替RDMA。那么到底什么是超节点呢?
什么是超节点
超节点是借助高速无损互联技术,突破传统计算节点以CPU和PCIe总线为核心的通信边界,构建的新一代计算架构。在硬件互联层面,超节点采用NVLink、CXL或专用交换网络等先进互连协议,在加速卡(GPU/NPU)之间构建了高带宽、低延迟的直接通信域(Scale-Up Domain,或称高带宽域,High Bandwidth Domain, HBD)。这种设计实现了计算单元间的大规模高效互连,缓解了传统架构中因GPU间通信必须经由CPU与PCIe总线而形成的性能瓶颈,为海量数据并行处理奠定了物理基础。在软件与系统层面,其资源管理范式也随之转变:硬件间的高速通信通常直接绕过(bypass)操作系统内核繁复的协议栈,转而通过用户态集合通信库(如NCCL、HCCL)进行调度,从而显著降低通信开销。
NVIDIA超节点产品
2020年,NVIDIA在其推出的HGX-A100系统中,通过第二代NVSwitch将两个八卡A100以背板方式连接,构成一个16卡系统。2022年,随Hopper架构推出的第三代NVSwitch支持更灵活的组网方式,能够实现32颗GH200(32x GPU)的互联(NVL32)1,最大可实现256颗GH100的互联(NVL256)。2024年Blackwell发布时,第四代NVSwitch能够实现36个GB200超级芯片(共72颗GPU)的互联(NVL72)2,最大支持288个GB200超级芯片(共576颗GPU)的互联。未来的Vera Rubin系列将进一步实现144个超级芯片的互联。以下是Hopper与Blackwell两代GPU所对应的超节点产品:
参数 | NVL32 | GH200 SuperPod | NVL72 | GB200 SuperPod |
---|---|---|---|---|
架构 | Hopper | Hopper | Blackwell | Blackwell |
HBM 大小 | 32 x 144GB = 4.6 TB | 256 x 96GB = 24.5 TB | 36 x 384GB = 13.8 TB | 288 x 384GB = 110 TB |
LPDDR5X 大小 | 32 x 480GB = 15.4 TB | 256 x 480GB = 123 TB | 36 x 480GB = 17.3 TB | 288 x 480GB = 138 TB |
HBM 带宽 | 3.35 TB/s | 4.8 TB/s | 8 TB/s | 8 TB/s |
FP16 (FLOPS) | 32 PetaFLOPS | 256 PetaFLOPS | 180 PetaFLOPS | 1440 PetaFLOPS |
INT8 (OPS) | 64 PetaOPS | 64 PetaOPS | 360 PetaOPS | 2880 PetaOPS |
FP8 (FLOPS) | 64 PetaFLOPS | 64 PetaFLOPS | 360 PetaFLOPS | 2880 PetaFLOPS |
FP6 (FLOPS) | N/A | N/A | 360 PetaFLOPS | 2880 PetaFLOPS |
FP4 (FLOPS) | N/A | N/A | 720 PetaFLOPS | 5760 PetaFLOPS |
GPU-GPU 带宽 | 0.9 TB/s | 0.9 TB/s | 1.8 TB/s | 1.8 TB/s |
NVSwitch | Gen3 64 Port | Gen3 64 Port | Gen4 72 Port | Gen4 72 Port |
NVLink 带宽 | 36 x 0.9 TB/s = 32 TB/s | 256 x 0.9 TB/s = 230 TB/s | 72 x 1.8 TB/s = 130 TB/s | 576 x 1.8 TB/s = 1 PB/s |
Ethernet 带宽 | 16 x 200 Gb/s | 256 x 200 Gb/s | 18 x 400 Gb/s | 576 x 400 Gb/s |
IB 带宽 | 32 x 400 Gb/s | 256 x 400 Gb/s | 72 x 800 Gb/s | 576 x 800 Gb/s |
GPUs Power | 32 x 1 kW = 32 kW | 256 x 1 kW = 256 kW | 36 x 2.7 kW = 97.2 kW | Not provided |
超节点技术趋势分析
在2022年Hopper架构发布之际,NVIDIA提出了十年内GPU算力增长1000倍的“黄氏定律” (Huang’s Law)3。其中,低精度数值格式、Tensor Core和工艺进步分别贡献了约16倍、12倍和2.5倍的算力提升。这揭示出NVIDIA是一家系统供应商而非单纯的芯片供应商,其算力增长并非仅依赖芯片本身。
回顾从Volta到Rubin系列的演进,NVIDIA的技术战略非常清晰:通过算力、互联、存储和封装等多个维度的协同创新,实现系统层面的指数级性能增长 。其目标是每两年提供约6倍的系统算力提升,并计划在十年内实现7000倍的增长(若考虑芯片在低精度和稀疏上能力的进步,这个增长可能超过10000倍)。这种复合式增长并非依赖单一技术突破,而是通过一套精心设计的“组合策略”实现:
- 单芯片算力:每代提升约3倍。
- Scale-Up域:互联规模和带宽同步翻倍。
- 内存系统:HBM带宽翻倍,容量提升3倍。