Unterstützte Frameworks und AWS-Regionen
Bevor Sie die SageMaker-Modellparallelitätsbibliothek v2 (SMP v2) verwenden, überprüfen Sie die unterstützten Frameworks und Instance-Typen und stellen Sie fest, ob in Ihrem AWS-Konto und AWS-Region genügend Kontingente vorhanden sind.
Anmerkung
Die neuesten Updates und Versionshinweise der Bibliothek finden Sie unter Versionshinweise zur Modell-Parallelitätsbibliothek von SageMaker AI.
Unterstützte Frameworks
SMP v2 unterstützt die folgenden Deep-Learning-Frameworks und ist über SMP-Docker-Container und einen SMP-Conda-Kanal verfügbar. Wenn Sie die Framework-Schätzerklassen im SageMaker Python SDK verwenden und die Verteilungskonfiguration zur Verwendung von SMP v2 angeben, wählt SageMaker AI automatisch die SMP-Docker-Container aus. Um SMP v2 zu nutzen, empfehlen wir Ihnen, das SageMaker Python SDK in Ihrer Entwicklungsumgebung immer auf dem neuesten Stand zu halten.
Von der SageMaker-Modellparallelitätsbibliothek unterstützte PyTorch-Versionen
| PyTorch-Version | Version der Bibliothek für Modellparallelität in SageMaker | SMP Docker-Image-URI | SMP Enroot-Image-URI |
|---|---|---|---|
| v2.5.1 | smdistributed-modelparallel==v2.8.0 |
658645717510.dkr.ecr. |
https://sagemaker-distributed-model-parallel.s3. |
| v2.4.1 | smdistributed-modelparallel==v2.7.0 |
658645717510.dkr.ecr. |
https://sagemaker-distributed-model-parallel.s3. |
smdistributed-modelparallel==v2.6.1 |
– | ||
smdistributed-modelparallel==v2.6.0 |
– | ||
| v2.3.1 | smdistributed-modelparallel==v2.5.0 |
658645717510.dkr.ecr. |
– |
smdistributed-modelparallel==v2.4.0 |
|||
| v2.2.0 | smdistributed-modelparallel==v2.3.0 |
658645717510.dkr.ecr. |
– |
smdistributed-modelparallel==v2.2.0 |
|||
| v2.1.2 | smdistributed-modelparallel==v2.1.0 |
658645717510.dkr.ecr. |
– |
| v2.0.1 | smdistributed-modelparallel==v2.0.0 |
658645717510.dkr.ecr. |
– |
SMP-Conda-Kanal
Der folgende Amazon-S3-Bucket ist ein öffentlicher Conda-Kanal, der vom SMP-Serviceteam gehostet wird. Wenn Sie die SMP-v2-Bibliothek in einer Umgebung wie SageMaker-HyperPod-Clustern installieren möchten, verwenden Sie diesen Conda-Kanal, um die SMP-Bibliothek ordnungsgemäß zu installieren.
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Weitere Informationen zu Conda-Kanälen im Allgemeinen finden Sie unter Kanäle
Anmerkung
Frühere Versionen der SMP-Bibliothek v1.x und vorkonfigurierte DLCs finden Sie unter Unterstützte Frameworks in der SMP-v1-Dokumentation.
SMP v2 mit Open-Source-Bibliotheken verwenden
Die SMP-v2-Bibliothek funktioniert mit anderen PyTorch-basierten Open-Source-Bibliotheken wie PyTorch Lightning, Hugging Face Transformers und Hugging Face Accelerate, da SMP v2 mit den PyTorch-FSDP-APIs kompatibel ist. Wenn Sie weitere Fragen zur Verwendung der SMP-Bibliothek mit anderen Bibliotheken von Drittanbietern haben, wenden Sie sich an das SMP-Serviceteam unter sm-model-parallel-feedback@amazon.com.
AWS-Regionen
SMP v2 ist in den folgenden AWS-Regionen verfügbar. Wenn Sie die SMP Docker Image URIs oder den SMP-Conda-Kanal verwenden möchten, wählen Sie aus der folgenden Liste die passende AWS-Region aus und aktualisieren Sie den Image-URI oder die Kanal-URL entsprechend.
-
ap-northeast-1
-
ap-northeast-2
-
ap-northeast-3
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ca-central-1
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-west-3
-
sa-east-1
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
Unterstützte Instance-Typen
SMP v2 erfordert einen der folgenden ML-Instance-Typen.
| Instance-Typ |
|---|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
ml.p5.48xlarge |
ml.p5e.48xlarge |
Tipp
Ab SMP v2.2.0 ist mit der Unterstützung von PyTorch v2.2.0 und höher Training mit gemischter Präzision mit FP8 auf P5-Instances mithilfe der Transformer Engine verfügbar.
Die Spezifikationen der allgemeinen Instance-Typen für SageMaker Machine Learning finden Sie im Abschnitt Beschleunigte Datenverarbeitung auf der Seite Amazon-EC2-Instance-Typen
Wenn Sie auf eine Fehlermeldung gestoßen sind, die der folgenden ähnelt, folgen Sie den Anweisungen unter Beantragen einer Kontingenterhöhung im AWS Service Quotas – Benutzerhandbuch.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.