Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Unterstützte Frameworks und AWS-Regionen
Bevor Sie die SageMaker-Modellparallelitätsbibliothek v2 (SMP v2) verwenden, überprüfen Sie die unterstützten Frameworks und Instance-Typen und stellen Sie fest, ob in Ihrem AWS-Konto und AWS-Region genügend Kontingente vorhanden sind.
Anmerkung
Die neuesten Updates und Versionshinweise der Bibliothek finden Sie unter Versionshinweise zur Modell-Parallelitätsbibliothek von SageMaker AI.
Unterstützte Frameworks
SMP v2 unterstützt die folgenden Deep-Learning-Frameworks und ist über SMP-Docker-Container und einen SMP-Conda-Kanal verfügbar. Wenn Sie die Framework-Schätzerklassen im SageMaker Python SDK verwenden und die Verteilungskonfiguration zur Verwendung von SMP v2 angeben, wählt SageMaker AI automatisch die SMP-Docker-Container aus. Um SMP v2 zu nutzen, empfehlen wir Ihnen, das SageMaker Python SDK in Ihrer Entwicklungsumgebung immer auf dem neuesten Stand zu halten.
Von der SageMaker-Modellparallelitätsbibliothek unterstützte PyTorch-Versionen
| PyTorch-Version | Version der Bibliothek für Modellparallelität in SageMaker | SMP Docker-Image-URI | SMP Enroot-Image-URI |
|---|---|---|---|
| v2.5.1 | smdistributed-modelparallel==v2.8.0 |
658645717510.dkr.ecr. |
https://sagemaker-distributed-model-parallel.s3. |
| v2.4.1 | smdistributed-modelparallel==v2.7.0 |
658645717510.dkr.ecr. |
https://sagemaker-distributed-model-parallel.s3. |
smdistributed-modelparallel==v2.6.1 |
– | ||
smdistributed-modelparallel==v2.6.0 |
– | ||
| v2.3.1 | smdistributed-modelparallel==v2.5.0 |
658645717510.dkr.ecr. |
– |
smdistributed-modelparallel==v2.4.0 |
|||
| v2.2.0 | smdistributed-modelparallel==v2.3.0 |
658645717510.dkr.ecr. |
– |
smdistributed-modelparallel==v2.2.0 |
|||
| v2.1.2 | smdistributed-modelparallel==v2.1.0 |
658645717510.dkr.ecr. |
– |
| v2.0.1 | smdistributed-modelparallel==v2.0.0 |
658645717510.dkr.ecr. |
– |
SMP-Conda-Kanal
Der folgende Amazon-S3-Bucket ist ein öffentlicher Conda-Kanal, der vom SMP-Serviceteam gehostet wird. Wenn Sie die SMP-v2-Bibliothek in einer Umgebung wie SageMaker-HyperPod-Clustern installieren möchten, verwenden Sie diesen Conda-Kanal, um die SMP-Bibliothek ordnungsgemäß zu installieren.
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Weitere Informationen zu Conda-Kanälen im Allgemeinen finden Sie unter Kanäle
Anmerkung
Frühere Versionen der SMP-Bibliothek v1.x und vorkonfigurierte DLCs finden Sie unter Unterstützte Frameworks in der SMP-v1-Dokumentation.
SMP v2 mit Open-Source-Bibliotheken verwenden
Die SMP-v2-Bibliothek funktioniert mit anderen PyTorch-basierten Open-Source-Bibliotheken wie PyTorch Lightning, Hugging Face Transformers und Hugging Face Accelerate, da SMP v2 mit den PyTorch-FSDP-APIs kompatibel ist. Wenn Sie weitere Fragen zur Verwendung der SMP-Bibliothek mit anderen Bibliotheken von Drittanbietern haben, wenden Sie sich an das SMP-Serviceteam unter sm-model-parallel-feedback@amazon.com.
AWS-Regionen
SMP v2 ist in den folgenden AWS-Regionen verfügbar. Wenn Sie die SMP Docker Image URIs oder den SMP-Conda-Kanal verwenden möchten, wählen Sie aus der folgenden Liste die passende AWS-Region aus und aktualisieren Sie den Image-URI oder die Kanal-URL entsprechend.
-
ap-northeast-1
-
ap-northeast-2
-
ap-northeast-3
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ca-central-1
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-west-3
-
sa-east-1
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
Unterstützte Instance-Typen
SMP v2 erfordert einen der folgenden ML-Instance-Typen.
| Instance-Typ |
|---|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
ml.p5.48xlarge |
ml.p5e.48xlarge |
Tipp
Ab SMP v2.2.0 ist mit der Unterstützung von PyTorch v2.2.0 und höher Training mit gemischter Präzision FP8 auf P5-Instanzen mithilfe der Transformer Engine verfügbar.
Die Spezifikationen der allgemeinen Instance-Typen für SageMaker Machine Learning finden Sie im Abschnitt Beschleunigte Datenverarbeitung auf der Seite Amazon-EC2-Instance-Typen
Wenn Sie auf eine Fehlermeldung gestoßen sind, die der folgenden ähnelt, folgen Sie den Anweisungen unter Beantragen einer Kontingenterhöhung im AWS Service Quotas – Benutzerhandbuch.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.