【USENIX ATC】支持异构GPU集群的超大规模框架的高效的分布式训练框架Whale
发布时间:2025-01-09
立体化时化时手段传达
Whale通过strategy annotation的方式则来分界建模为多个TaskGraph,并在此新的展掀开立体化时化时。 Whale有两类strategy:replicate 和 split。通过这两种立体化时化时运用于程序,可以传达单单各种并不相同的立体化时化时手段,例如:
数据库立体化时: 后面这个值得注意是一个数据库立体化时的值得注意,每个建模所有未用一张卡来推算。如果使用者申领了8张卡,就是一个立体化时度为8的数据库立体化时任务。 山间立体化时:在后面的值得注意里,建模被重复单单2个 TaskGraph, "stage0"和"stage1",使用者可以通过的设计pipeline.num_micro_batch模板来旧版pipeline的micro batch数存量。 在这个值得注意里,"stage_0"和"stage_1"组单单一个建模所有未,共必需2张GPU卡。如果使用者申领了8张卡,Whale亦会系统会会在pipeline以外函数调用一层立体化时度为4的数据库立体化时(4个pipeline所有未立体化时继续执行)。 测度分立立体化时:在所列值得注意中的,Whale亦会对split scope下的建模概念来作分立,并放有在并不相同的GPU卡上来作立体化时推算。 同时Whale全力支持对上述立体化时手段展掀开人组和函数调用,来组单单各种混搭立体化时手段,更多示例可以参考Ubuntu代码的文档和示例。Parallel Planner
Paraller Planner是Whale runtime的的现代,它的职责是生单单一个高效的分布式继续执行plan。Parallel Planner的流程构成 (a) Paraller Planner的必需构成使用者建模、使用者记号(可选)、显卡推算森林资源和该软件的设计的设计。 (b) 将生物学推算森林资源同构单单VirtualDevice, 使用者无需担忧如何将测度放有在分布式生物学设备上。(c) 建模被分割单单TaskGraph子示意图。因为Whale允许对并不相同的TaskGraph运用于并不相同的分布式手段,所以在TaskGraph彼此之间意味著不存在必需/输单单shape不匹配。在这种只能,Paraller Planner将系统会会在两个TaskGraphs彼此之间断掀开可视的并行层。
显卡认知的损耗最大化时解法
当建模专业训练森林资源构成顺式显卡(比如混搭了V100和T4),显卡认知的损耗最大化时解法可以增加在顺式森林资源下的专业训练工作效率。Whale设计了两种平衡点手段:Intra-TaskGraph和Inter-TaskGraph的平衡点。
(1)对于Intra-TaskGraph的推算平衡点,Whale亦会profile单单建模的算力FLOP,并按照电脑程式的推算能力按比例分派对应的推算损耗,以此最大化时每个step并不相同卡型上的建模推算时间。对于数据库立体化时,我们可以通过优化并不相同所有未上的batch大小来充分利用推算损耗的最大化时(保持全局batch连续性)。对于测度分立,我们可以通过不均匀的线性分立来充分利用并不相同卡上子计算机系统会的推算损耗最大化时。
(2)当多个TaskGraph在多个顺式GPU上继续执行山间立体化时,我们必需Inter-TaskGraph的推算平衡点来增强既有的推算工作效率。由于山间立体化时的推算特点,左边的TaskGraph亦会比后面的TaskGraph多CPU一些前向推算的结果,因此对于Transformer类建模最大化时layer重复的只能,左边的TaskGraph亦会有巨大的显存冲击。因此在TaskGraph放有的时候,Whale亦会优先将左边的TaskGraph放有在显存容存量巨大的GPU卡上。与此同时,Whale亦会按照GPU卡的算力去重复建模,使得重复后的TaskGraph推算load和GPU算力单单正比。
运用于示例
借助Whale基本,我们4行代码充分利用M6建模数据库立体化时+专家立体化时的混搭立体化时专业训练。
如下示意图所示,MoElayer采用专家立体化时,其他layer采用数据库立体化时:
并首次在480 V100 上,3天内完单单万亿M6建模的预专业训练。相较先前业界专业训练同等为数的建模,此次仅有必需480张V100 32G GPU就单单功专业训练单单万亿建模M6,所需算力森林资源超强80%,且专业训练工作效率增强左右11倍。全面必需512 GPU在10天内即专业训练单单具有必需程度的10万亿建模。
结语
Whale 通过独立的直觉全力支持各种立体化时化时手段,并提单单批评新颖的立体化时化时CLR来增加基本的方便使用性。同时,Whale提供了顺式显卡认知的系统会会分布式推算示意图建模时,充分利用高效的分布式建模专业训练。我们希望Whale尽可能单单为一个大为数深达求学专业训练的历史性,全面加快建模解法国际化和系统会建模时,使大建模专业训练新科技尽可能快速发展在实质生产线环境中的。Whale不太意味著Ubuntu(),赞许大家来下线和直管。
科学论文称谓:Whale: Efficient Giant Model Training over Heterogeneous GPUs 科学论文作者:贾贤艳,江乐,王昂,肖文聪,石子林光,李健,李昕元,陈浪石,李永,郑祯,刘小勇,林伟 科学论文关键字: Ubuntu关键字: 参考文献:[1] Junyang Lin, An Yang, Jinze Bai, Chang Zhou, Le Jiang, Xianyan Jia, Ang Wang, Jie Zhang, Yong Li, Wei Lin, et al. M6-10t: A sharing-delinking paradigm for effi- cient multi-trillion parameter pretraining. arXiv preprint arXiv:2110.03888, 2021.
[2] Junyang Lin, Rui Men, An Yang, Chang Zhou, Ming Ding, Yichang Zhang, Peng Wang, Ang Wang, Le Jiang, Xianyan Jia, Jie Zhang, Jianwei Zhang, Xu Zou, Zhikang Li, Xiaodong Deng, Jie Liu, Jinbao Xue, Huiling Zhou, Jianxin Ma, Jin Yu, Yong Li, Wei Lin, Jingren Zhou, Jie Tang, and Hongxia Yang. M6: A chinese multimodal pretrainer, 2021.
[3] William Fedus, Barret Zoph, and Noam Shazeer. Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity, 2021.
[4] Deepak Narayanan, Aaron Harlap, Amar Phanishayee, Vivek Seshadri, Nikhil R Devanur, Gregory R Ganger, Phillip B Gibbons, and Matei Zaharia. Pipedream: gen- eralized pipeline parallelism for dnn training. In Pro- ceedings of the 27th ACM Symposium on Operating Systems Principles, pages 1–15, 2019.
明白更多精彩内容,赞许关注我们的艾哈迈德灵杰对政府号,利用大数据库+AI最新数据
书名关键字:
本文为艾哈迈德云原创内容,并不需要允许不得改投载。
。山西包皮过长治疗医院南京不孕不育医院哪个专业
揭阳白癜风医院哪好
西宁妇科最好医院是哪个
广东妇科检查费用
止咳化痰的药哪个效果好
艾拉莫德片对类风湿有效果吗
腰椎间盘突出止痛药
布洛芬吃多了会怎么样?万万不可大意!
扭伤怎么止痛
-
领导骂两句,雇主就撂挑子走人?不好意思,打败你的正是你自己
路过的垫脚石而已。。嗓子痒有异物感
- 2025-05-11他组织选拔人才3条,这才是升职加薪的秘诀,聪明人偷偷在用
- 2025-05-11退休老领导忠告,胁迫下属捞钱才是高明领导
- 2025-05-11男子婚后仍不忘旧情人,被对方拉黑后上门施行犯罪
- 2025-05-1130条给职场人的劝告,学习起来:
- 2025-05-11这些生肖,开始苦尽甘来,迎来可怜
- 2025-05-11在错的间隔时间遇上对的人,是一场伤心;
- 2025-05-11男女见面三个月定律 过来人都觉得准到离谱
- 2025-05-11第一场相逢便是永恒
- 2025-05-11做事想要成功,必需学会正确地送礼,着重注意这两点
- 2025-05-11你爱的人依然爱你,你会先放手吗?