支持的框架和 AWS 区域 - Amazon SageMaker AI

支持的框架和 AWS 区域

在使用 SageMaker 模型并行性库之前,请检查支持的框架和实例类型,并确定您的 AWS 账户和 AWS 区域中是否有足够的限额。

注意

要查看库的最新更新和发行说明,请参阅 SageMaker Python SDK 文档中的 SageMaker 模型并行性发行说明

支持的框架

SageMaker 模型并行性库支持以下深度学习框架,可在 AWS Deep Learning Containers (DLC) 中使用,也可以作为二进制文件下载。

SageMaker AI 和 SageMaker 模型并行性库支持的 PyTorch 版本

PyTorch 版本 SageMaker 模型并行性库版本 smdistributed-modelparallel 集成 DLC 映像 URI 二进制文件的 URL**
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.0/build-artifacts/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
v1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
注意

SageMaker 模型并行性库 v1.6.0 及更高版本为 PyTorch 提供了扩展功能。有关更多信息,请参阅 SageMaker 模型并行性库的核心功能

** 二进制文件的 URL 用于在自定义容器中安装 SageMaker 模型并行性库。有关更多信息,请参阅 使用 SageMaker 分布式模型并行库创建您自己的 Docker 容器

SageMaker AI 和 SageMaker 模型并行性库支持的 TensorFlow 版本

TensorFlow 版本 SageMaker 模型并行性库版本 smdistributed-modelparallel 集成 DLC 映像 URI
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

SageMaker AI 和 SageMaker 分布式数据并行库支持的 Hugging Face Transformers 版本

适用于 Hugging Face 的 AWS Deep Learning Containers 使用适用于 PyTorch 和 TensorFlow 的 SageMaker 训练容器作为其基础映像。要查找 Hugging Face Transformers 库版本以及可以结合使用的 PyTorch 和 TensorFlow 版本,请参阅最新的 Hugging Face 容器以前的 Hugging Face 容器版本

AWS 区域

在提供适用于 SageMaker 的 AWS Deep Learning Containers 的所有 AWS 区域中,均可使用 SageMaker 数据并行库。有关更多信息,请参阅可用的深度学习容器映像

支持的实例类型

SageMaker 模型并行性库需要以下 ML 实例类型之一。

实例类型
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

有关实例类型的规格,请参阅 Amazon EC2 实例类型页面中的加速计算部分。有关实例定价的信息,请参阅 Amazon SageMaker AI 定价

在遇到类似于以下内容的错误消息时,请按照请求提高 SageMaker AI 资源的服务限额中的说明操作。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.