Unterstützte Frameworks AWS-Regionen Unterstützte Instance-Typen

Unterstützte Frameworks und AWS-Regionen

Bevor Sie die SageMaker Model Parallelism Library v2 (SMP v2) verwenden, überprüfen Sie die unterstützten Frameworks und Instance-Typen und stellen Sie fest, ob in Ihrem Konto genügend Kontingente vorhanden sind und. AWS AWS-Region

Anmerkung

Die neuesten Updates und Versionshinweise der Bibliothek finden Sie unter Versionshinweise für die SageMaker Modellparallelitätsbibliothek.

Unterstützte Frameworks

SMP v2 unterstützt die folgenden Deep-Learning-Frameworks und ist über SMP-Docker-Container und einen SMP-Conda-Kanal verfügbar. Wenn Sie die Framework-Schätzerklassen im SageMaker Python-SDK verwenden und die Verteilungskonfiguration für die Verwendung von SMP v2 angeben, nimmt SageMaker KI die SMP-Docker-Container automatisch auf. Um SMP v2 zu verwenden, empfehlen wir, dass Sie das SageMaker Python-SDK in Ihrer Entwicklungsumgebung immer auf dem neuesten Stand halten.

PyTorch Versionen, die die SageMaker Modellparallelismus-Bibliothek unterstützt

PyTorch Version	SageMaker Version der Bibliothek für Modellparallelität	SMP Docker-Image-URI	SMP Enroot-Image-URI
v2.5.1	`smdistributed-modelparallel==v2.8.0`	`658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.5.1-gpu-py311-cu124`	`https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.5.1-gpu-py311-cu124.sqsh`
v2.4.1	`smdistributed-modelparallel==v2.7.0`	`658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121`	`https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh`
	`smdistributed-modelparallel==v2.6.1`		–
	`smdistributed-modelparallel==v2.6.0`		–
v2.3.1	`smdistributed-modelparallel==v2.5.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121`	–
v2.3.1	`smdistributed-modelparallel==v2.4.0`		–
v2.2.0	`smdistributed-modelparallel==v2.3.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121`	–
v2.2.0	`smdistributed-modelparallel==v2.2.0`		–
v2.1.2	`smdistributed-modelparallel==v2.1.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121`	–
v2.0.1	`smdistributed-modelparallel==v2.0.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121`	–

SMP-Conda-Kanal

Der folgende Amazon-S3-Bucket ist ein öffentlicher Conda-Kanal, der vom SMP-Serviceteam gehostet wird. Wenn Sie die SMP v2-Bibliothek in einer Umgebung wie SageMaker HyperPod Clustern installieren möchten, verwenden Sie diesen Conda-Kanal, um die SMP-Bibliothek ordnungsgemäß zu installieren.


https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Weitere Informationen zu Conda-Kanälen im Allgemeinen finden Sie unter Kanäle in der Conda-Dokumentation.

Anmerkung

Frühere Versionen der SMP-Bibliothek v1.x und vorkonfigurierte Versionen finden Sie Unterstützte Frameworks in der SMP DLCs v1-Dokumentation.

SMP v2 mit Open-Source-Bibliotheken verwenden

Die SMP v2-Bibliothek funktioniert mit anderen PyTorch basierten Open-Source-Bibliotheken wie PyTorch Lightning, Hugging Face Transformers und Hugging Face Accelerate, da SMP v2 mit dem FSDP kompatibel ist. PyTorch APIs Wenn Sie weitere Fragen zur Verwendung der SMP-Bibliothek mit anderen Bibliotheken von Drittanbietern haben, wenden Sie sich an das SMP-Serviceteam unter sm-model-parallel-feedback@amazon.com.

AWS-Regionen

SMP v2 ist im Folgenden verfügbar. AWS-Regionen Wenn Sie das SMP Docker-Image URIs oder den SMP Conda-Kanal verwenden möchten, überprüfen Sie die folgende Liste und wählen Sie das AWS-Region passende aus. Aktualisieren Sie die Image-URI oder die Kanal-URL entsprechend.

ap-northeast-1
ap-northeast-2
ap-northeast-3
ap-south-1
ap-southeast-1
ap-southeast-2
ca-central-1
eu-central-1
eu-north-1
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-1
us-west-2

Unterstützte Instance-Typen

SMP v2 erfordert einen der folgenden ML-Instance-Typen.

Instance-Typ
`ml.p4d.24xlarge`
`ml.p4de.24xlarge`
`ml.p5.48xlarge`
`ml.p5e.48xlarge`

Tipp

Ab SMP v2.2.0 ist Unterstützung PyTorch für v2.2.0 und höher verfügbar. Training mit gemischter Präzision FP8 auf P5-Instanzen mithilfe der Transformer Engine

Allgemeine Spezifikationen der SageMaker Machine-Learning-Instance-Typen finden Sie im Abschnitt Accelerated Computing auf der Seite Amazon EC2 EC2-Instance-Typen. Informationen zu den Instance-Preisen finden Sie unter Amazon SageMaker AI-Preise.

Wenn Sie auf eine Fehlermeldung gestoßen sind, die der folgenden ähnelt, folgen Sie den Anweisungen unter Beantragen einer Kontingenterhöhung im AWS Service Quotas – Benutzerhandbuch.


ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
    the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
    for training job usage' is 0 Instances, with current utilization of 0 Instances
    and a request delta of 1 Instances.
    Please contact AWS support to request an increase for this limit.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Konzepte der Modellparallelität

Verwendung von SMP v2