

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 支持的框架和 AWS 区域
<a name="distributed-model-parallel-support-v2"></a>

在使用 SageMaker 模型并行度库 v2 (SMP v2) 之前，请检查支持的框架和实例类型，并确定您的账户中是否有足够的配额和。 AWS AWS 区域

**注意**  
要查看库的最新更新和版本说明，请参阅 [SageMaker 模型并行度库的发行说明](model-parallel-release-notes.md)。

## 支持的框架
<a name="distributed-model-parallel-supported-frameworks-v2"></a>

SMP v2 支持以下深度学习框架，并且可通过 SMP Docker 容器和 SMP Conda 通道使用。当你使用 Pyth SageMaker on SDK 中的框架估算器类并指定分发配置以使用 SMP v2 时， SageMaker AI 会自动获取 SMP Docker 容器。要使用 SMP v2，我们建议您在开发环境中始终保持 P SageMaker ython SDK 的最新版本。

**PyTorch SageMaker 模型并行度库支持的版本**



- **v2.5.1**
  - **SageMaker 模型并行度库版本:** smdistributed-modelparallel==v2.8.0
  - **SMP Docker 映像 URI:** 658645717510.dkr.ecr.{{<us-west-2>}}.amazonaws.com/smdistributed-modelparallel:2.5.1-gpu-py311-cu124
  - **SMP Enroot 映像 URI:** https://sagemaker-distributed-model-parallel.s3.{{<us-west-2>}}.amazonaws.com/enroot/2.5.1-gpu-py311-cu124.sqsh

- **v2.4.1**
  - **SageMaker 模型并行度库版本:** smdistributed-modelparallel==v2.7.0 / **SMP Enroot 映像 URI:** https://sagemaker-distributed-model-parallel.s3.{{<us-west-2>}}.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh
  - **SageMaker 模型并行度库版本:** smdistributed-modelparallel==v2.6.1 / **SMP Enroot 映像 URI:** 不适用
  - **SageMaker 模型并行度库版本:** smdistributed-modelparallel==v2.6.0 / **SMP Enroot 映像 URI:** 不适用
  - **SMP Docker 映像 URI:** 658645717510.dkr.ecr.{{<us-west-2>}}.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121

- **v2.3.1**
  - **SageMaker 模型并行度库版本:**
    - smdistributed-modelparallel==v2.5.0
    - smdistributed-modelparallel==v2.4.0
  - **SMP Docker 映像 URI:** 658645717510.dkr.ecr.{{us-west-2}}.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
  - **SMP Enroot 映像 URI:** 不适用

- **v2.2.0**
  - **SageMaker 模型并行度库版本:**
    - smdistributed-modelparallel==v2.3.0
    - smdistributed-modelparallel==v2.2.0
  - **SMP Docker 映像 URI:** 658645717510.dkr.ecr.{{us-west-2}}.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
  - **SMP Enroot 映像 URI:** 不适用

- **v2.1.2**
  - **SageMaker 模型并行度库版本:** smdistributed-modelparallel==v2.1.0
  - **SMP Docker 映像 URI:** 658645717510.dkr.ecr.{{us-west-2}}.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
  - **SMP Enroot 映像 URI:** 不适用

- **v2.0.1**
  - **SageMaker 模型并行度库版本:** smdistributed-modelparallel==v2.0.0
  - **SMP Docker 映像 URI:** 658645717510.dkr.ecr.{{us-west-2}}.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121
  - **SMP Enroot 映像 URI:** 不适用



**SMP Conda 通道**

下面的 Amazon S3 存储桶是由 SMP 服务团队托管的公共 Conda 通道。如果要在 SageMaker HyperPod 群集等环境中安装 SMP v2 库，请使用此 Conda 通道正确安装 SMP 库。

```
https://sagemaker-distributed-model-parallel.s3.{{us-west-2}}.amazonaws.com/smp-v2/
```

有关 Conda 通道的更多信息，请参阅 [Conda 文档](https://docs.conda.io/projects/conda/en/latest/user-guide/concepts/channels.html)中的*通道*。

**注意**  
*要查找 SMP 库 v1.x 和预打包版本的先前版本 DLCs，请参阅 SMP v1 [支持的框架](distributed-model-parallel-support.md#distributed-model-parallel-supported-frameworks) 文档中的。*

### 使用 SMP v2 和开放源代码库
<a name="distributed-model-parallel-supported-frameworks-v2-open-source"></a>

SMP v2 库可与其他 PyTorch基于开源库配合使用，例如 L PyTorch ightning、Hugging Face Transformers 和 Hugging Face Accelerate，因为 SMP v2 与 FSDP 兼容。 PyTorch APIs如果您对将 SMP 库与其他第三方库一起使用还有更多疑问，请联系 SMP 服务团队，电话是 `sm-model-parallel-feedback@amazon.com`。

## AWS 区域
<a name="distributed-model-parallel-availablity-zone-v2"></a>

SMP v2 在以下版本中可用。 AWS 区域如果你想使用 SMP Docker 镜像 URIs 或 SMP Conda 频道，请查看以下列表并选择与你的 AWS 区域 相匹配的镜像，然后相应地更新图片 URI 或频道 URL。
+ ap-northeast-1
+ ap-northeast-2
+ ap-northeast-3
+ ap-south-1
+ ap-southeast-1
+ ap-southeast-2
+ ca-central-1
+ eu-central-1
+ eu-north-1
+ eu-west-1
+ eu-west-2
+ eu-west-3
+ sa-east-1
+ us-east-1
+ us-east-2
+ us-west-1
+ us-west-2

## 支持的实例类型
<a name="distributed-model-parallel-supported-instance-types-v2"></a>

SMP v2 需要以下 ML 实例类型之一。


| 实例类型 | 
| --- | 
| ml.p4d.24xlarge | 
| ml.p4de.24xlarge | 
| ml.p5.48xlarge | 
| ml.p5e.48xlarge | 

**提示**  
从 SMP v2.2.0 开始，支持 PyTorch v2.2.0 及更高版本，已上市。[使用变形引擎 FP8 在 P5 实例上进行混合精度训练](model-parallel-core-features-v2-mixed-precision.md#model-parallel-core-features-v2-mixed-precision-fp8-training-on-p5)

有关 SageMaker 机器学习实例类型的一般规格，请参阅 [Amazon EC2 实例类型页面](https://aws.amazon.com/ec2/instance-types/)的**加速计算**部分。有关实例定价的信息，请参阅 [Amazon A SageMaker I 定价](https://aws.amazon.com/sagemaker/pricing/)。

如果您遇到类似以下的错误消息，请按照[《AWS 服务配额用户指南》](https://docs.aws.amazon.com/servicequotas/latest/userguide/request-quota-increase.html)中*请求提高配额*的说明进行操作。

```
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
    the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
    for training job usage' is 0 Instances, with current utilization of 0 Instances
    and a request delta of 1 Instances.
    Please contact AWS support to request an increase for this limit.
```