标签 LLM¶ Kaplan Scaling Law vs Chinchilla Optimal LLM预训练大模型非正式评论 关于分布式模型并行的分正式评论 Pretrain¶ Kaplan Scaling Law vs Chinchilla Optimal LLM预训练大模型非正式评论 Training¶ AdamW 关于分布式模型并行的分正式评论