Random Round

Random Round 是指浮点数量化时,随机 round 到相邻的数值,而不是 round 到最近的数值。随机 round 虽然增加了单个数值的量化误差,但是能够避免整体的有偏量化误差。因此,在某些训练场景下能够避免有偏量化误差带来的收敛速度慢问题,具体可见 Gopher 论文 1 Figure A7
Pasted image 20240124133211.png


  1. 2021, DeepMind, Scaling Language Models: Methods, Analysis & Insights from Training Gopher