Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esegui corsi di formazione distribuiti con la libreria di parallelismo dei dati distribuiti basata sull' SageMaker intelligenza artificiale
La libreria SageMaker AI Distributed Data Parallelism (SMDDP) estende le funzionalità di SageMaker formazione sui modelli di deep learning con un'efficienza di scalabilità quasi lineare fornendo implementazioni di operazioni di comunicazione collettiva ottimizzate per l'infrastruttura. AWS
Quando si addestrano modelli di machine learning (ML) di grandi dimensioni, come modelli linguistici di grandi dimensioni (LLM) e modelli di diffusione, su un enorme set di dati di addestramento, i professionisti del machine learning utilizzano cluster di acceleratori e tecniche di addestramento distribuito per ridurre i tempi di addestramento o risolvere i vincoli di memoria per i modelli non adatti a ogni memoria GPU. I professionisti del machine learning spesso iniziano con più acceleratori su una singola istanza, per poi passare a cluster di istanze man mano che aumentano i requisiti del carico di lavoro. Quando aumentano le dimensioni del cluster, aumenta anche il sovraccarico di comunicazione tra più nodi, con un conseguente calo delle prestazioni di calcolo complessive.
Per risolvere i problemi di sovraccarico e di memoria, la libreria SMDDP offre quanto segue.
-
La libreria SMDDP ottimizza i lavori di formazione per l'infrastruttura di AWS rete e la topologia delle istanze Amazon SageMaker AI ML.
-
La libreria SMDDP migliora la comunicazione tra i nodi con implementazioni
AllReducee operazioni di comunicazioneAllGathercollettiva ottimizzate per l'infrastruttura. AWS
Per ulteriori informazioni sui dettagli delle offerte della libreria SMDDP, consulta Introduzione alla libreria di parallelismo dei dati distribuiti per l' SageMaker intelligenza artificiale.
Per ulteriori informazioni sulla formazione con la strategia parallela a modelli offerta dall' SageMaker IA, consulta anche. (Archiviata) Libreria SageMaker Model Parallelism v1.x
Argomenti
Formazione distribuita con la libreria di parallelismo dei dati distribuiti SageMaker AI
Esempi di librerie di parallelismo dei dati di Amazon SageMaker AI
Suggerimenti di configurazione per la libreria di parallelismo dei dati distribuiti SageMaker AI
Domande frequenti sulla libreria Amazon SageMaker AI Distributed Data Parallelism
Risoluzione dei problemi relativi alla formazione distribuita in Amazon SageMaker AI
SageMaker Note di rilascio della libreria di parallelismo dei dati AI