Esegui corsi di formazione distribuiti con la libreria di parallelismo dei dati distribuiti basata sull' SageMaker intelligenza artificiale - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esegui corsi di formazione distribuiti con la libreria di parallelismo dei dati distribuiti basata sull' SageMaker intelligenza artificiale

La libreria SageMaker AI Distributed Data Parallelism (SMDDP) estende le funzionalità di SageMaker formazione sui modelli di deep learning con un'efficienza di scalabilità quasi lineare fornendo implementazioni di operazioni di comunicazione collettiva ottimizzate per l'infrastruttura. AWS

Quando si addestrano modelli di machine learning (ML) di grandi dimensioni, come modelli linguistici di grandi dimensioni (LLM) e modelli di diffusione, su un enorme set di dati di addestramento, i professionisti del machine learning utilizzano cluster di acceleratori e tecniche di addestramento distribuito per ridurre i tempi di addestramento o risolvere i vincoli di memoria per i modelli non adatti a ogni memoria GPU. I professionisti del machine learning spesso iniziano con più acceleratori su una singola istanza, per poi passare a cluster di istanze man mano che aumentano i requisiti del carico di lavoro. Quando aumentano le dimensioni del cluster, aumenta anche il sovraccarico di comunicazione tra più nodi, con un conseguente calo delle prestazioni di calcolo complessive.

Per risolvere i problemi di sovraccarico e di memoria, la libreria SMDDP offre quanto segue.

  • La libreria SMDDP ottimizza i lavori di formazione per l'infrastruttura di AWS rete e la topologia delle istanze Amazon SageMaker AI ML.

  • La libreria SMDDP migliora la comunicazione tra i nodi con implementazioni AllReduce e operazioni di comunicazione AllGather collettiva ottimizzate per l'infrastruttura. AWS

Per ulteriori informazioni sui dettagli delle offerte della libreria SMDDP, consulta Introduzione alla libreria di parallelismo dei dati distribuiti per l' SageMaker intelligenza artificiale.

Per ulteriori informazioni sulla formazione con la strategia parallela a modelli offerta dall' SageMaker IA, consulta anche. (Archiviata) Libreria SageMaker Model Parallelism v1.x