ZeRO: Memory Optimizations Toward Training Trillion Parameter Models(论文阅读)


作者:Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He
{samyamr, jerasley, olruwase, yuxhe}@microsoft.com


核心思想

类似参数服务器思想:当你的模型大到一个计算单元放不下的时候(cpu内存放不下或者gpu内存放不下),可以把你的模型分布式的存在各个地方。当你计算的时候再去往这个分布式存储里把你的模型拿下来,要多少拿多少,用完之后就丢掉,以保证当前计算的时候有你需要的模型。

  • 用通讯换内存