标签
Debug¶
FP8¶
LLM¶
- INT8也能训练
- Kaplan Scaling Law vs Chinchilla Optimal
- LLM预训练大模型非正式评论
- Probing分布式探针系统的原型探索(一):背景与设计理念
- Probing分布式探针系统的原型探索(二):探针机制
- 从DeepSeek V3看FP8训练的挑战
- 从Training Dynamics到Outlier——LLM模型训练过程中的数值特性分析
- 从强化学习到DeepSeek R1
- 关于分布式模型并行的分正式评论
Optimization¶
Pretrain¶
Profiling¶
RL¶
Training¶
- AdamW
- INT8也能训练
- Probing分布式探针系统的原型探索(一):背景与设计理念
- Probing分布式探针系统的原型探索(二):探针机制
- 从DeepSeek V3看FP8训练的挑战
- 从Training Dynamics到Outlier——LLM模型训练过程中的数值特性分析
- 从强化学习到DeepSeek R1
- 关于分布式模型并行的分正式评论