利用 SageMaker AI 分布式数据并行库运行分布式训练

SageMaker AI 分布式数据并行（SMDDP）库通过为 AWS 基础设施优化集体通信操作的实施，扩展了 SageMaker 在深度学习模型上的训练能力，并实现了接近线性扩展的效率。

当在庞大的训练数据集上训练大型机器学习 (ML) 模型（例如大型语言模型（LLM）和扩散模型）时，ML 从业人员会使用加速器集群和分布式训练技术来缩短训练时间，或解决每个 GPU 内存无法容纳的模型的内存限制问题。ML 从业人员通常先在单个实例上使用多个加速器，然后随着工作负载需求的增加扩展到实例集群。随着集群规模的扩大，多个节点之间的通信开销也会增加，从而导致整体计算性能下降。

为了解决此类开销和内存问题，SMDDP 库提供了以下内容。