Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Amazon SageMaker HyperPod
SageMaker HyperPod ti aiuta a fornire cluster resilienti per l'esecuzione di carichi di lavoro di machine learning (ML) e lo sviluppo di state-of-the-art modelli come modelli di linguaggio di grandi dimensioni (LLMs), modelli di diffusione e modelli di base (). FMs Accelera lo sviluppo FMs eliminando gli oneri indifferenziati legati alla creazione e alla manutenzione di cluster di elaborazione su larga scala alimentati da migliaia di acceleratori come Trainium e NVIDIA A100 e H100 Graphical Processing Unit (). AWS GPUs In caso di guasto degli acceleratori, le funzionalità di resilienza delle istanze di SageMaker HyperPod Monitor the Cluster rilevano e sostituiscono automaticamente l'hardware difettoso in modo che tu possa concentrarti sull'esecuzione di carichi di lavoro ML.
Per iniziare, controllaPrerequisiti per l'utilizzo di SageMaker HyperPod, configura AWS Identity and Access Management per SageMaker HyperPod e scegli una delle seguenti opzioni di orchestrazione supportate da. SageMaker HyperPod
Supporto Slurm in SageMaker HyperPod
SageMaker HyperPod fornisce supporto per l'esecuzione di carichi di lavoro di machine learning su cluster resilienti mediante l'integrazione con Slurm, un gestore di carichi di lavoro open source. Il supporto di Slurm SageMaker HyperPod consente una perfetta orchestrazione del cluster tramite la configurazione del cluster Slurm, consentendo di configurare nodi head, login e worker sui SageMaker HyperPod cluster. Questa integrazione facilita anche la pianificazione dei processi basata su Slurm per l'esecuzione di carichi di lavoro ML sul cluster, nonché l'accesso diretto ai nodi del cluster per la pianificazione dei processi. Con il supporto per la configurazione HyperPod del ciclo di vita, puoi personalizzare l'ambiente di elaborazione dei cluster per soddisfare i tuoi requisiti specifici. Inoltre, sfruttando le librerie di formazione distribuite di Amazon SageMaker AI, puoi ottimizzare le prestazioni dei cluster sulle AWS risorse di elaborazione e di rete. Per ulteriori informazioni, consulta Orchestrazione SageMaker HyperPod dei cluster con Slurm.
Supporto Amazon EKS in SageMaker HyperPod
SageMaker HyperPod si integra inoltre con Amazon EKS per consentire la formazione su larga scala di modelli di base su cluster di elaborazione resilienti e di lunga durata. Ciò consente agli utenti amministratori del cluster di effettuare il provisioning dei HyperPod cluster e collegarli a un piano di controllo EKS, abilitando la gestione dinamica della capacità, l'accesso diretto alle istanze del cluster e le funzionalità di resilienza. Per i data scientist, il supporto di Amazon EKS HyperPod consente di eseguire carichi di lavoro containerizzati per la formazione dei modelli di base, l'inferenza sul cluster EKS e lo sfruttamento della funzionalità di ripristino automatico del lavoro per la formazione Kubeflow. PyTorch L'architettura prevede una mappatura 1 a 1 tra un cluster EKS (piano di controllo) e un HyperPod cluster (nodi di lavoro) all'interno di un VPC, fornendo una soluzione strettamente integrata per l'esecuzione di carichi di lavoro ML su larga scala. Per ulteriori informazioni, consulta Orchestrazione di SageMaker HyperPod cluster con Amazon EKS.
UltraServers con HyperPod
HyperPod UltraServers offre potenza di calcolo AI integrando i superchip NVIDIA in un'infrastruttura coesa e ad alte prestazioni. Ciascuna NVL72 UltraServer combina 18 istanze con 72 istanze NVIDIA Blackwell GPUs interconnesse NVLink, consentendo inferenze più rapide e prestazioni di formazione più rapide rispetto alle istanze della generazione precedente. Questa architettura è particolarmente utile per le organizzazioni che lavorano con modelli di base composti da trilioni di parametri, poiché la memoria GPU unificata consente a interi modelli di rimanere all'interno di un unico dominio, eliminando i colli di bottiglia della rete tra nodi. NVLink HyperPod migliora questo vantaggio hardware con una pianificazione intelligente basata sulla topologia che ottimizza il posizionamento dei carichi di lavoro, la sostituzione automatica delle istanze per ridurre al minimo le interruzioni e opzioni di implementazione flessibili che supportano configurazioni di risorse dedicate e condivise. Per i team che si spingono oltre i limiti delle dimensioni e delle prestazioni dei modelli, questa integrazione fornisce la base computazionale necessaria per addestrare e implementare i modelli di intelligenza artificiale più avanzati con un'efficienza senza precedenti.
SageMaker HyperPod ottimizza automaticamente il posizionamento delle istanze su. UltraServers Per impostazione predefinita, HyperPod assegna la priorità a tutte le istanze in una UltraServer prima di utilizzarne un'altra. Ad esempio, se desideri 14 istanze e ne hai 2 UltraServers nel tuo piano, l' SageMaker IA utilizza tutte le istanze della prima. UltraServer Se desideri 20 istanze, l' SageMaker IA utilizza tutte le 18 istanze nella prima UltraServer e poi ne utilizza altre 2 nella seconda.
Regioni AWS supportato da SageMaker HyperPod
SageMaker HyperPod è disponibile nelle seguenti versioni Regioni AWS.
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-south-2
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ap-southeast-3
-
ap-southeast-4
-
ap-northeast-1
-
sa-east-1