Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Unterstützte Frameworks und AWS-Regionen
Bevor Sie die SageMaker Model Parallelism Library v2 (SMP v2) verwenden, überprüfen Sie die unterstützten Frameworks und Instance-Typen und stellen Sie fest, ob in Ihrem Konto genügend Kontingente vorhanden sind und. AWS AWS-Region
Anmerkung
Die neuesten Updates und Versionshinweise der Bibliothek finden Sie unter Versionshinweise für die SageMaker Modellparallelitätsbibliothek.
Unterstützte Frameworks
SMP v2 unterstützt die folgenden Deep-Learning-Frameworks und ist über SMP-Docker-Container und einen SMP-Conda-Kanal verfügbar. Wenn Sie die Framework-Schätzerklassen im SageMaker Python-SDK verwenden und die Verteilungskonfiguration für die Verwendung von SMP v2 angeben, nimmt SageMaker KI die SMP-Docker-Container automatisch auf. Um SMP v2 zu verwenden, empfehlen wir, dass Sie das SageMaker Python-SDK in Ihrer Entwicklungsumgebung immer auf dem neuesten Stand halten.
PyTorch Versionen, die die SageMaker Modellparallelismus-Bibliothek unterstützt
| PyTorch Version | SageMaker Version der Bibliothek für Modellparallelität | SMP Docker-Image-URI | SMP Enroot-Image-URI |
|---|---|---|---|
| v2.5.1 | smdistributed-modelparallel==v2.8.0 |
658645717510.dkr.ecr. |
https://sagemaker-distributed-model-parallel.s3. |
| v2.4.1 | smdistributed-modelparallel==v2.7.0 |
658645717510.dkr.ecr. |
https://sagemaker-distributed-model-parallel.s3. |
smdistributed-modelparallel==v2.6.1 |
– | ||
smdistributed-modelparallel==v2.6.0 |
– | ||
| v2.3.1 | smdistributed-modelparallel==v2.5.0 |
658645717510.dkr.ecr. |
– |
smdistributed-modelparallel==v2.4.0 |
|||
| v2.2.0 | smdistributed-modelparallel==v2.3.0 |
658645717510.dkr.ecr. |
– |
smdistributed-modelparallel==v2.2.0 |
|||
| v2.1.2 | smdistributed-modelparallel==v2.1.0 |
658645717510.dkr.ecr. |
– |
| v2.0.1 | smdistributed-modelparallel==v2.0.0 |
658645717510.dkr.ecr. |
– |
SMP-Conda-Kanal
Der folgende Amazon-S3-Bucket ist ein öffentlicher Conda-Kanal, der vom SMP-Serviceteam gehostet wird. Wenn Sie die SMP v2-Bibliothek in einer Umgebung wie SageMaker HyperPod Clustern installieren möchten, verwenden Sie diesen Conda-Kanal, um die SMP-Bibliothek ordnungsgemäß zu installieren.
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Weitere Informationen zu Conda-Kanälen im Allgemeinen finden Sie unter Kanäle
Anmerkung
Frühere Versionen der SMP-Bibliothek v1.x und vorkonfigurierte Versionen finden Sie Unterstützte Frameworks in der SMP DLCs v1-Dokumentation.
SMP v2 mit Open-Source-Bibliotheken verwenden
Die SMP v2-Bibliothek funktioniert mit anderen PyTorch basierten Open-Source-Bibliotheken wie PyTorch Lightning, Hugging Face Transformers und Hugging Face Accelerate, da SMP v2 mit dem FSDP kompatibel ist. PyTorch APIs Wenn Sie weitere Fragen zur Verwendung der SMP-Bibliothek mit anderen Bibliotheken von Drittanbietern haben, wenden Sie sich an das SMP-Serviceteam unter sm-model-parallel-feedback@amazon.com.
AWS-Regionen
SMP v2 ist im Folgenden verfügbar. AWS-Regionen Wenn Sie das SMP Docker-Image URIs oder den SMP Conda-Kanal verwenden möchten, überprüfen Sie die folgende Liste und wählen Sie das AWS-Region passende aus. Aktualisieren Sie die Image-URI oder die Kanal-URL entsprechend.
-
ap-northeast-1
-
ap-northeast-2
-
ap-northeast-3
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ca-central-1
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-west-3
-
sa-east-1
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
Unterstützte Instance-Typen
SMP v2 erfordert einen der folgenden ML-Instance-Typen.
| Instance-Typ |
|---|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
ml.p5.48xlarge |
ml.p5e.48xlarge |
Tipp
Ab SMP v2.2.0 ist Unterstützung PyTorch für v2.2.0 und höher verfügbar. Training mit gemischter Präzision FP8 auf P5-Instanzen mithilfe der Transformer Engine
Allgemeine Spezifikationen der SageMaker Machine-Learning-Instance-Typen finden Sie im Abschnitt Accelerated Computing auf der Seite Amazon EC2 EC2-Instance-Typen
Wenn Sie auf eine Fehlermeldung gestoßen sind, die der folgenden ähnelt, folgen Sie den Anweisungen unter Beantragen einer Kontingenterhöhung im AWS Service Quotas – Benutzerhandbuch.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.