本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
利用 SageMaker AI 分布式数据并行库运行分布式训练
SageMaker AI 分布式数据并行(SMDDP)库通过为 AWS 基础设施优化集体通信操作的实施,扩展了 SageMaker 在深度学习模型上的训练能力,并实现了接近线性扩展的效率。
当在庞大的训练数据集上训练大型机器学习 (ML) 模型(例如大型语言模型(LLM)和扩散模型)时,ML 从业人员会使用加速器集群和分布式训练技术来缩短训练时间,或解决每个 GPU 内存无法容纳的模型的内存限制问题。ML 从业人员通常先在单个实例上使用多个加速器,然后随着工作负载需求的增加扩展到实例集群。随着集群规模的扩大,多个节点之间的通信开销也会增加,从而导致整体计算性能下降。
为了解决此类开销和内存问题,SMDDP 库提供了以下内容。
-
SMDDP 库针对 AWS 网络基础设施和 Amazon SageMaker AI ML 实例拓扑,对您的训练作业进行优化。
-
SMDDP 库通过针对 AWS 基础架构优化的
AllReduce和AllGather集体通信操作的实现,改善了节点之间的通信。
要了解有关 SMDDP 库产品详细信息的更多信息,请继续 SageMaker AI 分布式数据并行库简介。
有关使用 SageMaker AI 提供的模型并行策略进行训练的更多信息,另请参阅 (已存档)SageMaker 模型并行性库 v1.x。