支援的架構與 AWS 區域 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

支援的架構與 AWS 區域

使用 SageMaker 模型平行化程式庫 v2 (SMP v2) 之前,請先檢查支援的架構和執行個體類型,並判斷您的 AWS 帳戶和 AWS 區域 是否有足夠的配額。

注意

若要檢查程式庫的最新更新和版本備註,請參閱 SageMaker 模型平行化程式庫的版本備註

支援的架構

SMP v2 支援下列深度學習架構,可透過 SMP Docker 容器和 SMP Conda 頻道取得。當您使用 SageMaker Python SDK 中的架構估算器類別,並指定要使用 SMP v2 的分佈組態時,SageMaker AI 會自動挑選 SMP Docker 容器。若要使用 SMP v2,建議您在開發環境中隨時將 SageMaker Python SDK 保持在最新狀態。

SageMaker 模型平行化程式庫支援的 PyTorch 版本

PyTorch 版本 SageMaker 模型平行化程式庫版本 SMP Docker 映像檔 URI SMP Enroot 映像檔 URI
v2.5.1 smdistributed-modelparallel==v2.8.0 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.5.1-gpu-py311-cu124 https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.5.1-gpu-py311-cu124.sqsh
v2.4.1 smdistributed-modelparallel==v2.7.0 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh
smdistributed-modelparallel==v2.6.1 N/A
smdistributed-modelparallel==v2.6.0 N/A
v2.3.1 smdistributed-modelparallel==v2.5.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121 N/A
smdistributed-modelparallel==v2.4.0
v2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 N/A
smdistributed-modelparallel==v2.2.0
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 N/A
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121 N/A

SMP Conda 頻道

下列 Amazon S3 儲存貯體是由 SMP 服務團隊託管的公有 Conda 頻道。如果您想要在 SageMaker HyperPod 叢集等環境中安裝 SMP v2 程式庫,請使用此 Conda 頻道來正確安裝 SMP 程式庫。

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

如需 Conda 頻道的一般詳細資訊,請參閱 Conda 文件中的頻道

注意

若要尋找舊版 SMP 程式庫 v1.x 和預先封裝DLCs,請參閱 SMP v1 文件中的支援的架構

搭配開放原始碼程式庫使用 SMP v2

SMP v2 程式庫適用於其他 PyTorch 型開放原始碼程式庫,例如 PyTorch Lightning、Hugging Face Transformer 和 Hugging Face Accelerate,因為 SMP v2 與 PyTorch FSDP APIs 相容。如果您對搭配其他第三方程式庫使用 SMP 程式庫有其他問題,請透過 sm-model-parallel-feedback@amazon.com 聯絡 SMP 服務團隊。

AWS 區域

SMP v2 可用於下列 AWS 區域。如果您想要使用 SMP Docker 映像檔 URI 或 SMP Conda 頻道,請檢查下列清單並選擇與您的項目相符的 AWS 區域,並相應地更新映像檔 URI 或頻道 URL。

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-central-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

支援的執行個體類型

SMP v2 需要下列其中一個 ML 執行個體類型。

執行個體類型
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
ml.p5e.48xlarge
提示

從支援 PyTorch v2.2.0 和更新版本的 SMP v2.2.0 開始,使用轉換器引擎在 P5 執行個體上使用 FP8 進行混合精確度訓練 可供使用。

對於 SageMaker 機器學習執行個體類型的一般規格,請參閱 Amazon EC2 執行個體類型頁面中的加速運算區段。有關執行個體定價資訊,請參閱 Amazon SageMaker AI 定價

如果您遇到類似下列內容的錯誤訊息,請按照《AWSService Quotas 使用者指南》中的要求提高配額指示進行操作。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.