Huggingface：高效多GPU训练

news/2024/4/25 14:58:49/文章来源:https://blog.csdn.net/qq_18555105/article/details/130313398

https://huggingface.co/docs/transformers/perf_train_gpu_many

概念

首先介绍一下名词概念：
Data Parallel（DP）：数据并行，相同的步骤多次执行，把一个batch的数据分成多份，该处理是并行的，所有步骤都会在结束时同步。

Tensor Parallel（TP）：Tensor并行，把一整个tensor分成多份，每份被分配在指定的GPU上，在这个过程中，每份单独在不同的gpu上单独的运行，并最终同步结果。

Pipline Parallel（PP）：把模型的一个层或者多个层放在一个单独的GPU，每个gpu并行处理模型的不同层。

Zero Redundancy Optimizer (ZeRO) ：同样执行tensor分割操作，有些类似于TP，除了整个tensor被重建用于前向传播与反向传播，因此模型不需要被更改。也支持卸货操作，对与GPU受限的设备。

Sharded DDP：是基本ZeRO概念的另一个名称，用于各种其他ZeRO实现。

动态策略

适合在单GPU的策略：

不适合单GPU的策略：
3. DDP
4. Zero
5. TP

拥有快速节点连接：

ZeRO - as it requires close to no modifications to the model
PP+TP+DP - less communications, but requires massive changes to the model
没有快速节点连接：

DP+PP+TP+ZeRO-1

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_103838.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！