支持的框架和 AWS 区域 - Amazon SageMaker AI

支持的框架和 AWS 区域

在使用 SageMaker 模型并行性库 v2 (SMP v2) 之前,请检查支持的框架和实例类型,并确定您的 AWS 账户和 AWS 区域中是否有足够的限额。

注意

要查看库的最新更新和版本说明,请参阅 SageMaker 模型并行性库发布说明

支持的框架

SMP v2 支持以下深度学习框架,并且可通过 SMP Docker 容器和 SMP Conda 通道使用。如果您使用 SageMaker Python SDK 中的框架估算器类,并指定使用 SMP v2 的分发配置,SageMaker AI 会自动选择 SMP Docker 容器。要使用 SMP v2,我们建议您在开发环境中始终保持 SageMaker Python SDK 的最新版本。

SageMaker 模型并行性库支持的 PyTorch 版本

PyTorch 版本 SageMaker 模型并行性库版本 SMP Docker 映像 URI SMP Enroot 映像 URI
v2.5.1 smdistributed-modelparallel==v2.8.0 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.5.1-gpu-py311-cu124 https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.5.1-gpu-py311-cu124.sqsh
v2.4.1 smdistributed-modelparallel==v2.7.0 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh
smdistributed-modelparallel==v2.6.1 不适用
smdistributed-modelparallel==v2.6.0 不适用
v2.3.1 smdistributed-modelparallel==v2.5.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121 不适用
smdistributed-modelparallel==v2.4.0
v2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 不适用
smdistributed-modelparallel==v2.2.0
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 不适用
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121 不适用

SMP Conda 通道

下面的 Amazon S3 存储桶是由 SMP 服务团队托管的公共 Conda 通道。如果您要在环境(例如 SageMaker HyperPod 集群)中安装 SMP v2 库,请使用此 Conda 通道正确安装 SMP 库。

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

有关 Conda 通道的更多信息,请参阅 Conda 文档中的通道

注意

要查找以前版本的 SMP 库 v1.x 和预打包的 DLC,请参阅 SMP v1 文档中的 支持的框架

使用 SMP v2 和开放源代码库

SMP v2 库可与 PyTorch Lightning、Hugging Face 转换器 Hugging Face Accelerate 等其他基于 PyTorch 的开源库协同工作,因为 SMP v2 与 PyTorch FSDP API 兼容。如果您对将 SMP 库与其他第三方库一起使用还有更多疑问,请联系 SMP 服务团队,电话是 sm-model-parallel-feedback@amazon.com

AWS 区域

SMP v2 有以下 AWS 区域 版本。如果您想使用 SMP Docker 映像 URI 或 SMP Conda 通道,请查看以下列表并选择与您的相匹配的 AWS 区域,然后相应地更新映像 URI 或通道网址。

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-central-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

支持的实例类型

SMP v2 需要以下 ML 实例类型之一。

实例类型
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
ml.p5e.48xlarge
提示

从支持 PyTorch v2.2.0 及更高版本的 SMP v2.2.0 开始,使用 Transformer Engine 在 P5 实例上进行 FP8 混合精度训练 已上市。

有关 SageMaker 机器学习实例类型的一般规格,请参阅 Amazon EC2 实例类型页面中的加速计算部分。有关实例定价的信息,请参阅 Amazon SageMaker AI 定价

如果您遇到类似以下的错误消息,请按照《AWS 服务配额用户指南》请求提高配额的说明进行操作。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.