支持的框架和 AWS 区域
在使用 SageMaker 模型并行性库之前,请检查支持的框架和实例类型,并确定您的 AWS 账户和 AWS 区域中是否有足够的限额。
注意
要查看库的最新更新和发行说明,请参阅 SageMaker Python SDK 文档
支持的框架
SageMaker 模型并行性库支持以下深度学习框架,可在 AWS Deep Learning Containers (DLC) 中使用,也可以作为二进制文件下载。
SageMaker AI 和 SageMaker 模型并行性库支持的 PyTorch 版本
| PyTorch 版本 | SageMaker 模型并行性库版本 | smdistributed-modelparallel 集成 DLC 映像 URI |
二进制文件的 URL** |
|---|---|---|---|
| v2.0.0 | smdistributed-modelparallel==v1.15.0 |
|
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl |
| v1.13.1 | smdistributed-modelparallel==v1.15.0 |
|
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl |
| v1.12.1 | smdistributed-modelparallel==v1.13.0 |
|
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl |
| v1.12.0 | smdistributed-modelparallel==v1.11.0 |
|
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.0/build-artifacts/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl |
| v1.11.0 | smdistributed-modelparallel==v1.10.0 |
|
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl |
| v1.10.2 |
smdistributed-modelparallel==v1.7.0 |
|
- |
| v1.10.0 |
smdistributed-modelparallel==v1.5.0 |
|
- |
| v1.9.1 |
smdistributed-modelparallel==v1.4.0 |
|
- |
| v1.8.1* |
smdistributed-modelparallel==v1.6.0 |
|
- |
注意
SageMaker 模型并行性库 v1.6.0 及更高版本为 PyTorch 提供了扩展功能。有关更多信息,请参阅 SageMaker 模型并行性库的核心功能。
** 二进制文件的 URL 用于在自定义容器中安装 SageMaker 模型并行性库。有关更多信息,请参阅 使用 SageMaker 分布式模型并行库创建您自己的 Docker 容器。
SageMaker AI 和 SageMaker 模型并行性库支持的 TensorFlow 版本
| TensorFlow 版本 | SageMaker 模型并行性库版本 | smdistributed-modelparallel 集成 DLC 映像 URI |
|---|---|---|
| v2.6.0 | smdistributed-modelparallel==v1.4.0 |
763104351884.dkr.ecr. |
| v2.5.1 | smdistributed-modelparallel==v1.4.0
|
763104351884.dkr.ecr.
|
SageMaker AI 和 SageMaker 分布式数据并行库支持的 Hugging Face Transformers 版本
适用于 Hugging Face 的 AWS Deep Learning Containers 使用适用于 PyTorch 和 TensorFlow 的 SageMaker 训练容器作为其基础映像。要查找 Hugging Face Transformers 库版本以及可以结合使用的 PyTorch 和 TensorFlow 版本,请参阅最新的 Hugging Face 容器
AWS 区域
在提供适用于 SageMaker 的 AWS Deep Learning Containers
支持的实例类型
SageMaker 模型并行性库需要以下 ML 实例类型之一。
| 实例类型 |
|---|
ml.g4dn.12xlarge |
ml.p3.16xlarge |
ml.p3dn.24xlarge
|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
有关实例类型的规格,请参阅 Amazon EC2 实例类型
在遇到类似于以下内容的错误消息时,请按照请求提高 SageMaker AI 资源的服务限额中的说明操作。
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.