支援的架構與 AWS 區域 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

支援的架構與 AWS 區域

使用 SageMaker 模型平行處理程式庫之前,請檢查支援的架構和執行個體類型,並判斷您的 AWS 帳戶和 AWS 區域 是否有足夠的配額。

注意

若要查看程式庫的最新更新和發行說明,請參閱 SageMaker Python SDK 文件中的 SageMaker 模型平行發行說明

支援的架構

SageMaker 模型平行處理程式庫支援下列深度學習架構,並可在 AWS 深度學習容器 (DLC) 中取得,或以二進位檔案形式下載。

SageMaker AI 和 SageMaker AI 模型平行化程式庫支援的 PyTorch 版本

PyTorch 版本 SageMaker 模型平行處理程式庫版本 smdistributed-modelparallel 整合的 DLC 映像 URI 二進位檔案的網址**
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl
V1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.0/build-artifacts/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl
V1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
注意

SageMaker 模型平行處理程式庫 v1.6.0 及更新版本為 PyTorch 提供了擴充功能。如需更多詳細資訊,請參閱 SageMaker 模型平行化程式庫的核心功能

** 二進位檔案的 URL 用於在自訂容器中安裝 SageMaker 模型平行處理程式庫。如需更多詳細資訊,請參閱 使用 SageMaker 分散式模型平行程式庫建立您自己的 Docker 容器

SageMaker AI 和 SageMaker 模型平行化程式庫支援的 TensorFlow 版本

TensorFlow 版本 SageMaker 模型平行處理程式庫版本 smdistributed-modelparallel 整合的 DLC 映像 URI
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

SageMaker AI 和 SageMaker 分散式資料庫平行程式庫支援的 Hugging Face 轉換器版本

Hugging Face 的 AWS 深度學習容器使用適用於 PyTorch 和 TensorFlow 的 SageMaker 訓練容器做為其基礎映像。若要查詢 Hugging Face 轉換器程式庫版本及配對的 PyTorch 和 TensorFlow 版本,請參閱最新的 Hugging Face 容器先前的 Hugging Face 容器版本

AWS 區域

SageMaker 資料平行程式庫適用於 AWS SageMaker 深度學習容器服務中的所有 AWS 區域。如需更多資訊,請參閱可用的深度學習容器映像

支援的執行個體類型

SageMaker 模型平行處理程式庫需要下列其中一種機器學習 (ML) 執行個體類型。

執行個體類型
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

如需執行個體類型的空間,請參閱 Amazon EC2 執行個體類型頁面中的加速運算區段。有關執行個體定價資訊,請參閱 Amazon SageMaker AI 定價

如果您遇到類似下列內容的錯誤訊息,請按照請求 SageMaker AI 資源服務配額增加的指示進行操作。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.