标签
AI算力¶
Blackwell¶
Debug¶
FP8¶
Hopper¶
LLM¶
- INT8也能训练
- Kaplan Scaling Law vs Chinchilla Optimal
- LLM预训练大模型非正式评论
- Probing分布式探针开发随笔(一):背景与设计理念
- Probing分布式探针开发随笔(三):分布式训练的Profiling
- Probing分布式探针开发随笔(二):探针机制
- 从DeepSeek V3看FP8训练的挑战
- 从Training Dynamics到Outlier——LLM模型训练过程中的数值特性分析
- 从强化学习到DeepSeek R1
- 关于分布式模型并行的分正式评论
MoE¶
NVIDIA¶
NVLink¶
NVSwitch¶
Optimization¶
PGAS¶
Pretrain¶
Profiling¶
RL¶
SerDes¶
SuperPod¶
Training¶
- AdamW
- INT8也能训练
- Probing分布式探针开发随笔(一):背景与设计理念
- Probing分布式探针开发随笔(三):分布式训练的Profiling
- Probing分布式探针开发随笔(二):探针机制
- 从DeepSeek V3看FP8训练的挑战
- 从Training Dynamics到Outlier——LLM模型训练过程中的数值特性分析
- 从强化学习到DeepSeek R1
- 关于分布式模型并行的分正式评论