Führen Sie verteilte Trainings mit der SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism) durch - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Führen Sie verteilte Trainings mit der SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism) durch

Die SageMaker-AI-Bibliothek für verteilte Datenparallelität (SMDDP) erweitert die Trainingsfunktionen von SageMaker auf Deep-Learning-Modellen mit nahezu linearer Skalierungseffizienz durch Implementierungen kollektiver Kommunikationsoperationen, die für die AWS-Infrastruktur optimiert sind.

Beim Training großer Machine-Learning-Modelle (ML), wie z. B. große Sprachmodelle (LLM) und Diffusionsmodelle, auf einem riesigen Trainingsdatensatz verwenden ML-Praktiker Cluster von Beschleunigern und verteilte Trainingstechniken, um die Zeit für das Training zu reduzieren oder Speicherbeschränkungen für Modelle zu lösen, die nicht in jeden GPU-Speicher passen. ML-Praktiker beginnen häufig mit mehreren Beschleunigern auf einer einzigen Instance und skalieren dann auf Cluster von Instances, wenn ihre Workload-Anforderungen steigen. Mit zunehmender Clustergröße nimmt auch der Kommunikationsaufwand zwischen mehreren Knoten zu, was zu einem Rückgang der gesamten Rechenleistung führt.

Um solchen Aufwands- und Speicherproblemen zu begegnen, bietet die SMDDP-Bibliothek Folgendes.

  • Die SMDDP-Bibliothek optimiert Trainingsjobs für die AWS-Netzwerkinfrastruktur und die ML-Instance-Topologie von Amazon SageMaker AI.

  • Die SMDDP-Bibliothek verbessert die Kommunikation zwischen Knoten durch Implementierungen von kollektiven AllReduce- und AllGather-Kommunikationsoperationen, die für die AWS-Infrastruktur optimiert sind.

Weitere Informationen dazu, was die SMDDP-Bibliothek bietet, finden Sie unter Einführung in die SMDDP-Bibliothek (SageMaker AI Distributed Data Parallelism).

Weitere Informationen zum Training mit der Modellparallelitätsstrategie von SageMaker AI finden Sie unter (Archiviert) SageMaker-Modellparallelitätsbibliothek v1.x.