LLM Pretrain LLM预训练大模型非正式评论 最近调研预训练大模型时,发现了颇有意思的一些内容,准备写一些关于预训练大模型的非正式评论: 关于Scaling Law的非正式评论 关于模型结构的非正式评论 关于优化器的非正式评论 关于分布式并行训练的非正式评论