

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Orchestrazione SageMaker HyperPod dei cluster con Slurm
<a name="sagemaker-hyperpod-slurm"></a>

Il supporto di Slurm SageMaker HyperPod consente di fornire cluster resilienti per l'esecuzione di carichi di lavoro di machine learning (ML) e lo sviluppo di state-of-the-art modelli come modelli di linguaggio di grandi dimensioni (), modelli di diffusione e modelli di base (LLMs). FMs Accelera lo sviluppo FMs eliminando gli oneri indifferenziati legati alla creazione e alla manutenzione di cluster di elaborazione su larga scala alimentati da migliaia di acceleratori come Trainium e NVIDIA A100 e H100 Graphical Processing Units (). AWS GPUs In caso di guasto degli acceleratori, le funzionalità di resilienza dei SageMaker HyperPod monitor e delle istanze cluster rilevano e sostituiscono automaticamente l'hardware difettoso in modo che tu possa concentrarti sull'esecuzione di carichi di lavoro ML. Inoltre, con il supporto per la configurazione del ciclo di vita SageMaker HyperPod, puoi personalizzare il tuo ambiente di elaborazione per adattarlo al meglio alle tue esigenze e configurarlo con le librerie di formazione distribuite di Amazon SageMaker AI per ottenere prestazioni ottimali su. AWS

**Gestione dei cluster**

È possibile creare, configurare e gestire SageMaker HyperPod i cluster graficamente tramite l'interfaccia utente della console (UI) e programmaticamente tramite l'interfaccia a AWS riga di comando (CLI) oppure. AWS SDK per Python (Boto3) Con Amazon VPC, puoi proteggere la rete del cluster e anche trarre vantaggio dalla configurazione del cluster con risorse nel tuo VPC, come Amazon FSx for Lustre, che offre il throughput più veloce. Puoi anche assegnare diversi ruoli IAM ai gruppi di istanze del cluster e limitare le azioni che le risorse e gli utenti del cluster possono eseguire. Per ulteriori informazioni, consulta [SageMaker HyperPod Operazioni del cluster Slurm](sagemaker-hyperpod-operate-slurm.md).

**Configurazione dell’ambiente di ML**

SageMaker HyperPod viene eseguito[SageMaker HyperPod DLAMI](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-hyperpod-ami), che configura un ambiente ML sui cluster. HyperPod Puoi configurare personalizzazioni aggiuntive per DLAMI fornendo script del ciclo di vita per supportare il tuo caso d’uso. Per ulteriori informazioni su come configurare gli script del ciclo di vita, consulta [Iniziare con SageMaker HyperPod](smcluster-getting-started-slurm.md) e [Personalizzazione dei SageMaker HyperPod cluster utilizzando script del ciclo di vita](sagemaker-hyperpod-lifecycle-best-practices-slurm.md).

**Pianificazione dei processi**

Dopo aver creato correttamente un HyperPod cluster, gli utenti del cluster possono accedere ai nodi del cluster (come il nodo principale o controller, il nodo di accesso e il nodo di lavoro) e pianificare i lavori per l'esecuzione di carichi di lavoro di machine learning. Per ulteriori informazioni, consulta [Lavori su cluster SageMaker HyperPod](sagemaker-hyperpod-run-jobs-slurm.md).

**Resilienza contro i guasti hardware**

SageMaker HyperPod esegue controlli di integrità sui nodi del cluster e fornisce una funzionalità di ripristino automatico del carico di lavoro. Con le funzionalità di resilienza del cluster di HyperPod, puoi riprendere il carico di lavoro dall'ultimo checkpoint salvato, dopo che i nodi difettosi sono stati sostituiti con nodi integri in cluster con più di 16 nodi. Per ulteriori informazioni, consulta [SageMaker HyperPod resilienza del cluster](sagemaker-hyperpod-resiliency-slurm.md).

**Registrazione di log e gestione dei cluster**

Puoi trovare i parametri di utilizzo SageMaker HyperPod delle risorse e i log del ciclo di vita in Amazon e gestire le SageMaker HyperPod risorse CloudWatch taggandole. Ogni esecuzione dell’API `CreateCluster` crea un flusso di log distinto, denominato in base al formato `<cluster-name>-<timestamp>`. Nel flusso di log, puoi controllare i nomi degli host, il nome degli script del ciclo di vita non riusciti e gli output degli script non riusciti, ad esempio `stdout` e `stderr`. Per ulteriori informazioni, consulta [SageMaker HyperPod gestione dei cluster](sagemaker-hyperpod-cluster-management-slurm.md).

** SageMaker Compatibile con gli strumenti di intelligenza artificiale**

Utilizzando SageMaker HyperPod, puoi configurare i cluster con librerie di comunicazioni collettive AWS ottimizzate offerte dall' SageMaker IA, come la libreria [SageMaker AI Distributed Data Parallelism (SMDDP](data-parallel.md)). La libreria SMDDP implementa il `AllGather` funzionamento ottimizzato per l'infrastruttura di AWS calcolo e di rete per le istanze di machine learning AI più performanti SageMaker basate su NVIDIA A100. GPUs Per ulteriori informazioni, consulta [Esecuzione di carichi di lavoro di formazione distribuiti con Slurm on HyperPod](sagemaker-hyperpod-run-jobs-slurm-distributed-training-workload.md).

**Posizionamento delle istanze con UltraServers**

SageMaker L'intelligenza artificiale alloca automaticamente i lavori alle istanze interne all'azienda sulla UltraServer base di una strategia che prevede al massimo l'utilizzo di tutte le istanze di una UltraServer prima di utilizzarne un'altra. Ad esempio, se richiedi 14 istanze e ne hai 2 UltraServers nel tuo piano di allenamento, l' SageMaker IA utilizza tutte le istanze della prima. UltraServer Se hai richiesto 20 istanze e ne hai 2 UltraServers nel tuo piano di allenamento, l' SageMaker IA utilizzerà tutte le 17 istanze nella prima UltraServer e poi ne utilizzerà 3 nella seconda. UltraServer

**Topics**
+ [Iniziare con SageMaker HyperPod](smcluster-getting-started-slurm.md)
+ [SageMaker HyperPod Operazioni del cluster Slurm](sagemaker-hyperpod-operate-slurm.md)
+ [Personalizzazione dei SageMaker HyperPod cluster utilizzando script del ciclo di vita](sagemaker-hyperpod-lifecycle-best-practices-slurm.md)
+ [SageMaker HyperPod supporto per nodi multitesta](sagemaker-hyperpod-multihead-slurm.md)
+ [Lavori su cluster SageMaker HyperPod](sagemaker-hyperpod-run-jobs-slurm.md)
+ [SageMaker HyperPod monitoraggio delle risorse del cluster](sagemaker-hyperpod-cluster-observability-slurm.md)
+ [SageMaker HyperPod resilienza del cluster](sagemaker-hyperpod-resiliency-slurm.md)
+ [Provisioning continuo per operazioni avanzate del cluster con Slurm](sagemaker-hyperpod-scaling-slurm.md)
+ [SageMaker HyperPod gestione dei cluster](sagemaker-hyperpod-cluster-management-slurm.md)
+ [SageMaker HyperPod FAQs](sagemaker-hyperpod-faq-slurm.md)