Kernfunktionen der SageMaker-Modellparallelitätsbibliothek v2
Die Modellparallelitätsbibliothek von Amazon SageMaker AI v2 (SMP v2) bietet Verteilungsstrategien und Techniken zur Speichereinsparung, wie z. B. Parallelität fragmentierter Daten, Tensorparallelität und Checkpointing. Die Strategien und Techniken zur Modellparallelität von SMP v2 helfen dabei, große Modelle auf mehrere Geräte zu verteilen und dabei das Trainingsgeschwindigkeit und die Speichernutzung zu optimieren. SMP v2 bietet auch ein Python-Paket torch.sagemaker, mit dem Sie Ihr Trainingsskript mit wenigen Codeänderungen anpassen können.
Dieses Handbuch folgt dem grundlegenden zweistufigen Ablauf, der in Verwendung der SageMaker-Modellparallelitätsbibliothek v2 vorgestellt wurde. Weitere Informationen zu den Kernfunktionen von SMP 2 und deren Verwendung finden Sie in den folgenden Themen.
Anmerkung
Diese Kernfunktionen sind in SMP v2.0.0 und höher sowie im SageMaker Python SDK v2.200.0 und höher verfügbar und funktionieren für PyTorch v2.0.1 und höher. Informationen zur Überprüfung der Versionen der Pakete finden Sie unter Unterstützte Frameworks und AWS-Regionen.