Unterstützte Frameworks und AWS-Regionen - Amazon SageMaker AI

Unterstützte Frameworks und AWS-Regionen

Bevor Sie die SageMaker-Modellparallelitätsbibliothek v2 (SMP v2) verwenden, überprüfen Sie die unterstützten Frameworks und Instance-Typen und stellen Sie fest, ob in Ihrem AWS-Konto und AWS-Region genügend Kontingente vorhanden sind.

Anmerkung

Die neuesten Updates und Versionshinweise der Bibliothek finden Sie unter Versionshinweise zur Modell-Parallelitätsbibliothek von SageMaker AI.

Unterstützte Frameworks

SMP v2 unterstützt die folgenden Deep-Learning-Frameworks und ist über SMP-Docker-Container und einen SMP-Conda-Kanal verfügbar. Wenn Sie die Framework-Schätzerklassen im SageMaker Python SDK verwenden und die Verteilungskonfiguration zur Verwendung von SMP v2 angeben, wählt SageMaker AI automatisch die SMP-Docker-Container aus. Um SMP v2 zu nutzen, empfehlen wir Ihnen, das SageMaker Python SDK in Ihrer Entwicklungsumgebung immer auf dem neuesten Stand zu halten.

Von der SageMaker-Modellparallelitätsbibliothek unterstützte PyTorch-Versionen

PyTorch-Version Version der Bibliothek für Modellparallelität in SageMaker SMP Docker-Image-URI SMP Enroot-Image-URI
v2.5.1 smdistributed-modelparallel==v2.8.0 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.5.1-gpu-py311-cu124 https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.5.1-gpu-py311-cu124.sqsh
v2.4.1 smdistributed-modelparallel==v2.7.0 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh
smdistributed-modelparallel==v2.6.1
smdistributed-modelparallel==v2.6.0
v2.3.1 smdistributed-modelparallel==v2.5.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
smdistributed-modelparallel==v2.4.0
v2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
smdistributed-modelparallel==v2.2.0
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121

SMP-Conda-Kanal

Der folgende Amazon-S3-Bucket ist ein öffentlicher Conda-Kanal, der vom SMP-Serviceteam gehostet wird. Wenn Sie die SMP-v2-Bibliothek in einer Umgebung wie SageMaker-HyperPod-Clustern installieren möchten, verwenden Sie diesen Conda-Kanal, um die SMP-Bibliothek ordnungsgemäß zu installieren.

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Weitere Informationen zu Conda-Kanälen im Allgemeinen finden Sie unter Kanäle in der Conda-Dokumentation.

Anmerkung

Frühere Versionen der SMP-Bibliothek v1.x und vorkonfigurierte DLCs finden Sie unter Unterstützte Frameworks in der SMP-v1-Dokumentation.

SMP v2 mit Open-Source-Bibliotheken verwenden

Die SMP-v2-Bibliothek funktioniert mit anderen PyTorch-basierten Open-Source-Bibliotheken wie PyTorch Lightning, Hugging Face Transformers und Hugging Face Accelerate, da SMP v2 mit den PyTorch-FSDP-APIs kompatibel ist. Wenn Sie weitere Fragen zur Verwendung der SMP-Bibliothek mit anderen Bibliotheken von Drittanbietern haben, wenden Sie sich an das SMP-Serviceteam unter sm-model-parallel-feedback@amazon.com.

AWS-Regionen

SMP v2 ist in den folgenden AWS-Regionen verfügbar. Wenn Sie die SMP Docker Image URIs oder den SMP-Conda-Kanal verwenden möchten, wählen Sie aus der folgenden Liste die passende AWS-Region aus und aktualisieren Sie den Image-URI oder die Kanal-URL entsprechend.

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-central-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

Unterstützte Instance-Typen

SMP v2 erfordert einen der folgenden ML-Instance-Typen.

Instance-Typ
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
ml.p5e.48xlarge
Tipp

Ab SMP v2.2.0 ist mit der Unterstützung von PyTorch v2.2.0 und höher Training mit gemischter Präzision mit FP8 auf P5-Instances mithilfe der Transformer Engine verfügbar.

Die Spezifikationen der allgemeinen Instance-Typen für SageMaker Machine Learning finden Sie im Abschnitt Beschleunigte Datenverarbeitung auf der Seite Amazon-EC2-Instance-Typen. Informationen zu den Preisen für Instances finden Sie unter Preise von Amazon SageMaker AI.

Wenn Sie auf eine Fehlermeldung gestoßen sind, die der folgenden ähnelt, folgen Sie den Anweisungen unter Beantragen einer Kontingenterhöhung im AWS Service Quotas – Benutzerhandbuch.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.