

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 支持的框架 AWS 区域、和实例类型
<a name="distributed-data-parallel-support"></a>

在使用 SageMaker AI 分布式数据并行度 (SMDDP) 库之前，请检查支持的机器学习框架和实例类型以及您的账户中是否有足够的配额，以及。 AWS AWS 区域

## 支持的框架
<a name="distributed-data-parallel-supported-frameworks"></a>

下表显示了 SageMaker AI 和 SMDDP 支持的深度学习框架及其版本。SMDDP 库可在 [SageMaker AI 框架容器](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only)中使用，也可以集成在[ SageMaker 模型并行度 (SMP) 库 v2 分发的 Docker 容器](distributed-model-parallel-support-v2.md#distributed-model-parallel-supported-frameworks-v2)中，也可以作为二进制文件下载。

**注意**  
要查看 SMDDP 库的最新更新和版本说明，请参阅 [SageMaker AI 数据并行度库发行说明](data-parallel-release-notes.md)。

**Topics**
+ [PyTorch](#distributed-data-parallel-supported-frameworks-pytorch)
+ [PyTorch 闪电](#distributed-data-parallel-supported-frameworks-lightning)
+ [Hugging Face Transformers](#distributed-data-parallel-supported-frameworks-transformers)
+ [TensorFlow （已弃用）](#distributed-data-parallel-supported-frameworks-tensorflow)

### PyTorch
<a name="distributed-data-parallel-supported-frameworks-pytorch"></a>


| PyTorch 版本 | SMDDP 库版本 | SageMaker 预装了 SMDDP 的 AI 框架容器镜像 | 预装了 SMDDP 的 SMP Docker 映像 | 二进制文件的 URL\$1\$1 | 
| --- | --- | --- | --- | --- | 
| v2.3.1 | smdistributed-dataparallel==v2.5.0 | 不可用 | 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed\$1dataparallel-2.5.0-cp311-cp311-linux\$1x86\$164.whl | 
| v2.3.0 | smdistributed-dataparallel==v2.3.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker | 当前无可用 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed\$1dataparallel-2.3.0-cp311-cp311-linux\$1x86\$164.whl | 
| v2.2.0 | smdistributed-dataparallel==v2.2.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed\$1dataparallel-2.2.0-cp310-cp310-linux\$1x86\$164.whl | 
| v2.1.0 | smdistributed-dataparallel==v2.1.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed\$1dataparallel-2.1.0-cp310-cp310-linux\$1x86\$164.whl | 
| v2.0.1 | smdistributed-dataparallel==v2.0.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker | 不可用 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed\$1dataparallel-2.0.2-cp310-cp310-linux\$1x86\$164.whl | 
| v2.0.0 | smdistributed-dataparallel==v1.8.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker | 不可用 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed\$1dataparallel-1.8.0-cp310-cp310-linux\$1x86\$164.whl | 
| v1.13.1 | smdistributed-dataparallel==v1.7.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker | 不可用 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed\$1dataparallel-1.7.0-cp39-cp39-linux\$1x86\$164.whl | 
| v1.12.1 | smdistributed-dataparallel==v1.6.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker | 不可用 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed\$1dataparallel-1.6.0-cp38-cp38-linux\$1x86\$164.whl | 
| v1.12.0 | smdistributed-dataparallel==v1.5.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker | 不可用 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed\$1dataparallel-1.5.0-cp38-cp38-linux\$1x86\$164.whl | 
| v1.11.0 | smdistributed-dataparallel==v1.4.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker | 不可用 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed\$1dataparallel-1.4.1-cp38-cp38-linux\$1x86\$164.whl | 

\$1\$1 二进制文件用于在自定义容器中安装 SMDDP 库。 URLs 有关更多信息，请参阅 [使用 SageMaker AI 分布式数据并行库创建自己的 Docker 容器](data-parallel-bring-your-own-container.md)。

**注意**  
SMDDP 库可在使用 [SageMaker AI 框架容器](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only)和 [SMP Docker 镜像 AWS 区域](distributed-model-parallel-support-v2.md)的地方使用。

**注意**  
SMDDP 库 v1.4.0 及更高版本可用作 PyTorch 分布式（torch.distributed）数据并行性（torch.parallel）的后端。 DistributedDataParallel)。根据更改，已弃用以下 [smdistri APIs](https://sagemaker.readthedocs.io/en/stable/api/training/sdp_versions/latest/smd_data_parallel_pytorch.html#pytorch-api) bute PyTorch d 的分布式软件包。  
`smdistributed.dataparallel.torch.distributed` 已弃用。改为使用 [torch.distributed](https://pytorch.org/docs/stable/distributed.html) 软件包。
`smdistributed.dataparallel.torch.parallel.DistributedDataParallel` 已弃用。使用 [torch.nn.parallel。 DistributedDataParallel](https://pytorch.org/docs/stable/generated/torch.nn.parallel.DistributedDataParallel.html)改用 API。
如果您需要使用该库的早期版本（v1.3.0 或更早版本），请参阅 AI *SageMaker Python* SDK 文档中[存档的 SageMaker AI 分布式数据并行性文档](https://sagemaker.readthedocs.io/en/stable/api/training/sdp_versions/latest.html#documentation-archive)。

### PyTorch 闪电
<a name="distributed-data-parallel-supported-frameworks-lightning"></a>

SMDDP 库适用于以下 SageMaker AI 框架容器 PyTorch 和 SMP Docker 容器中的 L PyTorch ightning。

**PyTorch 闪电 v2**


| PyTorch 闪电版 | PyTorch 版本 | SMDDP 库版本 | SageMaker 预装了 SMDDP 的 AI 框架容器镜像 | 预装了 SMDDP 的 SMP Docker 映像 | 二进制文件的 URL\$1\$1 | 
| --- | --- | --- | --- | --- | --- | 
| 2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker | 当前无可用 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed\$1dataparallel-2.3.0-cp311-cp311-linux\$1x86\$164.whl | 
| 2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed\$1dataparallel-2.2.0-cp310-cp310-linux\$1x86\$164.whl | 
| 2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed\$1dataparallel-2.1.0-cp310-cp310-linux\$1x86\$164.whl | 
| 2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker | 不可用 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed\$1dataparallel-2.0.2-cp310-cp310-linux\$1x86\$164.whl | 

**PyTorch 闪电 v1**


| PyTorch 闪电版 | PyTorch 版本 | SMDDP 库版本 | SageMaker 预装了 SMDDP 的 AI 框架容器镜像 | 二进制文件的 URL\$1\$1 | 
| --- | --- | --- | --- | --- | 
|  1.7.2 1.7.0 1.6.4 1.6.3 1.5.10  | 1.12.0 | smdistributed-dataparallel==v1.5.0 | 763104351884.dkr.ecr。 <region>.amazonaws.com/pytorch-training：1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed\$1dataparallel-1.5.0-cp38-cp38-linux\$1x86\$164.whl | 

\$1\$1 二进制文件用于在自定义容器中安装 SMDDP 库。 URLs 有关更多信息，请参阅 [使用 SageMaker AI 分布式数据并行库创建自己的 Docker 容器](data-parallel-bring-your-own-container.md)。

**注意**  
PyTorch Lightning 及其实用程序库（例如 Lightning Bolts）未预装在。 PyTorch DLCs在[步骤 2](https://docs.aws.amazon.com/sagemaker/latest/dg/data-parallel-use-api.html#data-parallel-framework-estimator) 中构建 A SageMaker I PyTorch 估算器并提交训练任务请求时，需要在 SageMaker AI PyTorch 训练`requirements.txt`容器`lightning-bolts`中提供安装`pytorch-lightning`和。  

```
# requirements.txt
pytorch-lightning
lightning-bolts
```
有关指定存放`requirements.txt`文件以及训练脚本和作业提交的源目录的更多信息，请参阅 *Amazon A SageMaker I Python SDK 文档*中的[使用第三方库](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/using_pytorch.html#id12)。

### Hugging Face Transformers
<a name="distributed-data-parallel-supported-frameworks-transformers"></a>

适用于 Hu AWS gging Face 的 Deep Learning Contain PyTorch er TensorFlow s 使用 SageMaker 训练容器作为基础图像。要查找 Hugging Face Transformers 库版本以及 PyTorch 配对版本 TensorFlow 和版本，请查看[最新的 Hugging Face 容器和之前的 Hu](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#huggingface-training-containers) ggin [g Fac](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#prior-hugging-face-container-versions) e 容器版本。

### TensorFlow （已弃用）
<a name="distributed-data-parallel-supported-frameworks-tensorflow"></a>

**重要**  
在 v2.11.0 之后，SMDDP 库已停止支持， TensorFlow 并且在 DLCs v2.11.0 TensorFlow 之后不再可用。下表列出了之前安装 DLCs 了 SMDDP 库的。 TensorFlow 


| TensorFlow 版本 | SMDDP 库版本 | 
| --- | --- | 
| 2.9.1、2.10.1、2.11.0 |  smdistributed-dataparallel==v1.4.1  | 
| 2.8.3 |  smdistributed-dataparallel==v1.3.0  | 

## AWS 区域
<a name="distributed-data-parallel-availablity-zone"></a>

SMDDP 库可在所有使用[ SageMaker 人工智能的 Deep Learning C AWS ontain](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) ers 和 [SMP Docker 镜像 AWS 区域](distributed-model-parallel-support-v2.md)的地方使用。

## 支持的实例类型
<a name="distributed-data-parallel-supported-instance-types"></a>

SMDDP 库需要以下实例类型之一。


| 实例类型 | 
| --- | 
| ml.p3dn.24xlarge\$1 | 
| ml.p4d.24xlarge | 
| ml.p4de.24xlarge | 

**提示**  
要在启用 EFA 的实例类型上正确运行分布式训练，您应该通过设置 VPC 的安全组来启用实例之间的流量，允许所有进出安全组的流量。要了解如何设置安全组规则，请参阅[《Amazon EC2 用户指南》](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-start.html#efa-start-security)中的*步骤 1：准备启用 EFA 的安全组*。

**重要**  
\$1 SMDDP 库已停止支持在 P3 实例上优化其集体通信操作。虽然您仍然可以在 `ml.p3dn.24xlarge` 实例上使用 SMDDP 优化的 `AllReduce` 集合，但将不再提供进一步的开发支持，以提高此实例类型的性能。请注意，SMDDP 优化的 `AllGather` 集合仅适用于 P4 实例。

有关实例类型的规格，请参阅 [Amazon EC2 实例类型](https://aws.amazon.com/ec2/instance-types/)页面中的**加速计算**部分。有关实例定价的信息，请参阅 [Amazon SageMaker 定价](https://aws.amazon.com/sagemaker/pricing/)。

如果您遇到类似以下内容的错误消息，请按照[请求增加 SageMaker AI 资源的服务配额中的说明进行](https://docs.aws.amazon.com/sagemaker/latest/dg/regions-quotas.html#service-limit-increase-request-procedure)操作。

```
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
for training job usage' is 0 Instances, with current utilization of 0 Instances
and a request delta of 1 Instances.
Please contact AWS support to request an increase for this limit.
```