ZeRO: Memory Optimizations Toward Training Trillion Parameter Models(论文阅读)

作者：Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He
{samyamr, jerasley, olruwase, yuxhe}@microsoft.com

核心思想

类似参数服务器思想：当你的模型大到一个计算单元放不下的时候（cpu内存放不下或者gpu内存放不下），可以把你的模型分布式的存在各个地方。当你计算的时候再去往这个分布式存储里把你的模型拿下来，要多少拿多少，用完之后就丢掉，以保证当前计算的时候有你需要的模型。

用通讯换内存

paper Paperreading

相关

F-Paper Grading

mac壁纸app推荐Dynamic Wallpaper v9.1免激活版，增加“全局快捷键”，一键切换壁纸，隐藏桌

Paper：Generating Hierarchical Explanations on Text Classification via Feature Int

[Paper Review]Distilling the Knowledge in a Neural Network,2015

Beautiful Minecraft Wallpapers

AT2141 AtCoDeerくんと変なじゃんけん / AtCoDeer and Rock-Paper 题解

Proj FuzzViz Paper Reading: Visualizing Data in Software Cities

Proj FuzzViz Paper Reading: An Interactive Dashboard for Visualizing the Provena

Proj EULibHarn Paper Reading: FuSeBMC v4: Smart Seed Generation for Hybrid Fuzzi

python自动从arxiv下载paper

paper reading

Background Suppression Network for Weakly-supervised Temporal Action Localizatio

标签