SageMaker 模型并行性库 v2 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker 模型并行性库 v2

注意

自 2023 年 12 月 19 日发布 SageMaker 模型并行性 (SMP) 库 v2.0.0 以来,本文档针对 SMP 库 v2 进行了更新。有关先前版本的 SMP 库,请参阅 (已存档)SageMaker 模型并行性库 v1.x

Amazon SageMaker AI 模型并行库是 SageMaker AI 的一项功能,可在 SageMaker AI 加速型计算实例上实现高性能和优化的大规模训练。 SageMaker 模型并行度库 v2 的核心功能 包括加速和简化大型模型训练的技术和优化,例如混合分片数据并行性、张量并行、激活检查点和激活卸载。您可以使用 SMP 库加速具有数千亿个参数的大型语言模型(LLM)、大型视觉模型(LVM)和基础模型(FM)的训练和微调。

SageMaker 模型并行性库 v2(SMP v2)将此库的 API 和方法与开源 PyTorch 完全分片数据并行性(FSDP)相匹配,使您只需修改极少的代码,就能获得 SMP 性能优化的好处。通过 SMP v2,您可以将 PyTorch FSDP 训练脚本引入 SageMaker AI,从而提高在 SageMaker AI 上训练最先进大型模型的计算性能。

您可以将 SMP v2 用于 亚马逊 SageMaker HyperPod 集群上的一般 SageMaker 训练作业和分布式训练工作负载。