深度解析 NVIDIA 的超节点架构演进
本文为原创文章,版权归作者所有。未经许可,禁止转载。
超节点无疑是过去半年最为火热的一个概念。从 NVIDIA 发布 NVL72,宣称单套系统提供 1,440 PFLOPS 算力;到华为的 CloudMatrix 384 号称提供 300 PFLOPs FP16 算力 ,达到英伟达 GB200 NVL72 系统(约 180 PFLOPs)的 近两倍 。各家国产 GPU 厂商也普遍不甘示弱,纷纷推出了自己的 32 卡或 64 卡超节点方案。互联协议作为兵家必争之地,连阿里、腾讯和字节都不甘示弱投身其中。从 UALink、ALS(阿里
这就是研究了一个月下来的感受,超节点远不止堆砌服务器和 GPU 那么简单,远不止用高速互联代替 RDMA。那么到底什么是超节点呢?
什么是超节点
超节点是借助高速无损互联技术,突破传统计算节点以 CPU 和 PCIe 总线为核心的通信边界,构建的新一代计算架构。在硬件互联层面,超节点采用 NVLink、CXL 或专用交换网络等先进互连协议,在加速卡(GPU/NPU)之间构建了高带宽、低延迟的直接通信域(Scale-Up Domain,或称高带宽域,High Bandwidth Domain, HBD
NVIDIA 超节点产品
2020 年,NVIDIA 在其推出的 HGX-A100 系统中,通过第二代 NVSwitch 将两个八卡 A100 以背板方式连接,构成一个 16 卡系统。2022 年,随 Hopper 架构推出的第三代 NVSwitch 支持更灵活的组网方式,能够实现 32 颗 GH200(32x GPU)的互联(NVL32)1,最大可实现 256 颗 GH100 的互联(NVL256
| 参数 | NVL32 | GH200 SuperPod | NVL72 | GB200 SuperPod |
|---|---|---|---|---|
| 架构 | Hopper | Hopper | Blackwell | Blackwell |
| HBM 大小 | 32 x 144GB = 4.6 TB | 256 x 96GB = 24.5 TB | 36 x 384GB = 13.8 TB | 288 x 384GB = 110 TB |
| LPDDR5X 大小 | 32 x 480GB = 15.4 TB | 256 x 480GB = 123 TB | 36 x 480GB = 17.3 TB | 288 x 480GB = 138 TB |
| HBM 带宽 | 3.35 TB/s | 4.8 TB/s | 8 TB/s | 8 TB/s |
| FP16 (FLOPS) | 32 PetaFLOPS | 256 PetaFLOPS | 180 PetaFLOPS | 1440 PetaFLOPS |
| INT8 (OPS) | 64 PetaOPS | 64 PetaOPS | 360 PetaOPS | 2880 PetaOPS |
| FP8 (FLOPS) | 64 PetaFLOPS | 64 PetaFLOPS | 360 PetaFLOPS | 2880 PetaFLOPS |
| FP6 (FLOPS) | N/A | N/A | 360 PetaFLOPS | 2880 PetaFLOPS |
| FP4 (FLOPS) | N/A | N/A | 720 PetaFLOPS | 5760 PetaFLOPS |
| GPU-GPU 带宽 | 0.9 TB/s | 0.9 TB/s | 1.8 TB/s | 1.8 TB/s |
| NVSwitch | Gen3 64 Port | Gen3 64 Port | Gen4 72 Port | Gen4 72 Port |
| NVLink 带宽 | 36 x 0.9 TB/s = 32 TB/s | 256 x 0.9 TB/s = 230 TB/s | 72 x 1.8 TB/s = 130 TB/s | 576 x 1.8 TB/s = 1 PB/s |
| Ethernet 带宽 | 16 x 200 Gb/s | 256 x 200 Gb/s | 18 x 400 Gb/s | 576 x 400 Gb/s |
| IB 带宽 | 32 x 400 Gb/s | 256 x 400 Gb/s | 72 x 800 Gb/s | 576 x 800 Gb/s |
| GPUs Power | 32 x 1 kW = 32 kW | 256 x 1 kW = 256 kW | 36 x 2.7 kW = 97.2 kW | Not provided |
超节点技术趋势分析
在 2022 年 Hopper 架构发布之际,NVIDIA 提出了十年内 GPU 算力增长 1000 倍的“黄氏定律” (Huang’s Law)3。其中,低精度数值格式、Tensor Core 和工艺进步分别贡献了约 16 倍、12 倍和 2.5 倍的算力提升。这揭示出 NVIDIA 是一家系统供应商而非单纯的芯片供应商,其算力增长并非仅依赖芯片本身。
回顾从 Volta 到 Rubin 系列的演进,NVIDIA 的技术战略非常清晰:通过算力、互联、存储和封装等多个维度的协同创新,实现系统层面的指数级性能增长 。其目标是每两年提供约 6 倍的系统算力提升,并计划在十年内实现 7000 倍的增长(若考虑芯片在低精度和稀疏上能力的进步,这个增长可能超过 10000 倍
- 单芯片算力:每代提升约 3 倍。
- Scale-Up 域:互联规模和带宽同步翻倍。
- 内存系统:HBM 带宽翻倍,容量提升 3 倍。