本文为原创文章,版权归作者所有。未经许可,禁止转载。
超节点无疑是过去半年最为火热的一个概念。从 NVIDIA 发布 NVL72,宣称单套系统提供 1,440 PFLOPS 算力;到华为的 CloudMatrix 384 号称提供 300 PFLOPs FP16 算力 ,达到英伟达 GB200 NVL72 系统(约 180 PFLOPs)的 近两倍 。各家国产 GPU 厂商也普遍不甘示弱,纷纷推出了自己的 32 卡或 64 卡超节点方案。互联协议作为兵家必争之地,连阿里、腾讯和字节都不甘示弱投身其中。从 UALink、ALS(阿里)、Eth-X(腾讯),再到 OSIA(中移动)、EthLink(字节),大有大鸣大放的趋势。大家看起来像是从一场盛宴赶赴另一场盛宴,唯恐拿不到入场卷。每个人都身着时髦的礼服,彼此紧张地打量着,但是没人知道自己能否坚持到这场盛宴结束,只能寄希望于运气,或者自己在漂亮的小礼服上下得一点点小心思,比如一根羽毛或者一块亮片。而场外 NVIDIA 和华为则把自己武装到了牙齿…
这就是研究了一个月下来的感受,超节点远不止堆砌服务器和 GPU 那么简单,远不止用高速互联代替 RDMA。那么到底什么是超节点呢?
超节点是借助高速无损互联技术,突破传统计算节点以 CPU 和 PCIe 总线为核心的通信边界,构建的新一代计算架构。在硬件互联层面,超节点采用 NVLink、CXL 或专用交换网络等先进互连协议,在加速卡(GPU/NPU)之间构建了高带宽、低延迟的直接通信域(Scale-Up Domain,或称高带宽域,High Bandwidth Domain, HBD)。这种设计实现了计算单元间的大规模高效互连,缓解了传统架构中因 GPU 间通信必须经由 CPU 与 PCIe 总线而形成的性能瓶颈,为海量数据并行处理奠定了物理基础。在软件与系统层面,其资源管理范式也随之转变:硬件间的高速通信通常直接绕过(bypass)操作系统内核繁复的协议栈,转而通过用户态集合通信库(如 NCCL、HCCL)进行调度,从而显著降低通信开销。
2020 年,NVIDIA 在其推出的 HGX-A100 系统中,通过第二代 NVSwitch 将两个八卡 A100 以背板方式连接,构成一个 16 卡系统。2022 年,随 Hopper 架构推出的第三代 NVSwitch 支持更灵活的组网方式,能够实现 32 颗 GH200(32x GPU)的互联(NVL32),最大可实现 256 颗 GH100 的互联(NVL256)。2024 年 Blackwell 发布时,第四代 NVSwitch 能够实现 36 个 GB200 超级芯片(共 72 颗 GPU)的互联(NVL72),最大支持 288 个 GB200 超级芯片(共 576 颗 GPU)的互联。未来的 Vera Rubin 系列将进一步实现 144 个超级芯片的互联。以下是 Hopper 与 Blackwell 两代 GPU 所对应的超节点产品:
| 参数 |
NVL32 |
GH200 SuperPod |
NVL72 |
GB200 SuperPod |
| 架构 |
Hopper |
Hopper |
Blackwell |
Blackwell |
| HBM 大小 |
32 x 144GB = 4.6 TB |
256 x 96GB = 24.5 TB |
36 x 384GB = 13.8 TB |
288 x 384GB = 110 TB |
| LPDDR5X 大小 |
32 x 480GB = 15.4 TB |
256 x 480GB = 123 TB |
36 x 480GB = 17.3 TB |
288 x 480GB = 138 TB |
| HBM 带宽 |
3.35 TB/s |
4.8 TB/s |
8 TB/s |
8 TB/s |
| FP16 (FLOPS) |
32 PetaFLOPS |
256 PetaFLOPS |
180 PetaFLOPS |
1440 PetaFLOPS |
| INT8 (OPS) |
64 PetaOPS |
64 PetaOPS |
360 PetaOPS |
2880 PetaOPS |
| FP8 (FLOPS) |
64 PetaFLOPS |
64 PetaFLOPS |
360 PetaFLOPS |
2880 PetaFLOPS |
| FP6 (FLOPS) |
N/A |
N/A |
360 PetaFLOPS |
2880 PetaFLOPS |
| FP4 (FLOPS) |
N/A |
N/A |
720 PetaFLOPS |
5760 PetaFLOPS |
| GPU-GPU 带宽 |
0.9 TB/s |
0.9 TB/s |
1.8 TB/s |
1.8 TB/s |
| NVSwitch |
Gen3 64 Port |
Gen3 64 Port |
Gen4 72 Port |
Gen4 72 Port |
| NVLink 带宽 |
36 x 0.9 TB/s = 32 TB/s |
256 x 0.9 TB/s = 230 TB/s |
72 x 1.8 TB/s = 130 TB/s |
576 x 1.8 TB/s = 1 PB/s |
| Ethernet 带宽 |
16 x 200 Gb/s |
256 x 200 Gb/s |
18 x 400 Gb/s |
576 x 400 Gb/s |
| IB 带宽 |
32 x 400 Gb/s |
256 x 400 Gb/s |
72 x 800 Gb/s |
576 x 800 Gb/s |
| GPUs Power |
32 x 1 kW = 32 kW |
256 x 1 kW = 256 kW |
36 x 2.7 kW = 97.2 kW |
Not provided |
在 2022 年 Hopper 架构发布之际,NVIDIA 提出了十年内 GPU 算力增长 1000 倍的“黄氏定律” (Huang’s Law)。其中,低精度数值格式、Tensor Core 和工艺进步分别贡献了约 16 倍、12 倍和 2.5 倍的算力提升。这揭示出 NVIDIA 是一家系统供应商而非单纯的芯片供应商,其算力增长并非仅依赖芯片本身。
回顾从 Volta 到 Rubin 系列的演进,NVIDIA 的技术战略非常清晰:通过算力、互联、存储和封装等多个维度的协同创新,实现系统层面的指数级性能增长 。其目标是每两年提供约 6 倍的系统算力提升,并计划在十年内实现 7000 倍的增长(若考虑芯片在低精度和稀疏上能力的进步,这个增长可能超过 10000 倍)。这种复合式增长并非依赖单一技术突破,而是通过一套精心设计的“组合策略”实现:
- 单芯片算力:每代提升约 3 倍。
- Scale-Up 域:互联规模和带宽同步翻倍。
- 内存系统:HBM 带宽翻倍,容量提升 3 倍。