Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Utilizzo dell'operatore addetto HyperPod alla formazione
L'operatore di SageMaker HyperPod formazione di Amazon ti aiuta ad accelerare lo sviluppo di modelli di intelligenza artificiale generativi gestendo in modo efficiente la formazione distribuita su cluster di GPU di grandi dimensioni. Introduce funzionalità intelligenti di ripristino degli errori, rilevamento delle interruzioni e gestione a livello di processo che riducono al minimo le interruzioni della formazione e riducono i costi. A differenza dell'infrastruttura di formazione tradizionale che richiede il riavvio completo del lavoro in caso di guasto, questo operatore implementa il ripristino del processo chirurgico per mantenere i lavori di formazione senza intoppi.
L'operatore collabora anche con le funzioni di monitoraggio HyperPod dello stato di salute e osservabilità, che forniscono visibilità in tempo reale sull'esecuzione della formazione e il monitoraggio automatico di parametri critici come i picchi di perdita e il degrado della produttività. È possibile definire politiche di ripristino tramite semplici configurazioni YAML senza modifiche al codice, in modo da rispondere rapidamente e ripristinare stati di allenamento irrecuperabili. Queste funzionalità di monitoraggio e ripristino interagiscono per mantenere prestazioni di allenamento ottimali riducendo al minimo il sovraccarico operativo.
Sebbene Kueue non sia necessario per questo operatore di formazione, l'amministratore del cluster può installarlo e configurarlo per migliorare le funzionalità di pianificazione dei lavori. Per ulteriori informazioni, consulta la documentazione ufficiale
Nota
Per utilizzare l'operatore di formazione, è necessario utilizzare l'ultima versione HyperPod AMI. Per eseguire l'aggiornamento, utilizzate l'operazione UpdateClusterSoftwareAPI. Se utilizzi la governance delle HyperPod attività, deve essere anche la versione più recente.
Versioni supportate
L'operatore di HyperPod formazione funziona solo con versioni specifiche di Kubernetes, Kueue e. HyperPod Consulta l'elenco seguente per l'elenco completo delle versioni compatibili.
-
Versioni di Kubernetes supportate: 1.28, 1.29, 1.30, 1.31 o 1.32
-
Versioni Kueue consigliate
: v.0.12.2 e v.0.12.3 -
L'ultima versione HyperPod AMI. Per eseguire l'aggiornamento alla versione AMI più recente, utilizza l' UpdateClusterSoftwareAPI.
L'operatore addetto alla HyperPod formazione è compatibile con Kueue, che l'amministratore del cluster può configurare per migliorare le funzionalità di pianificazione dei lavori. Per ulteriori informazioni, consulta la documentazione ufficiale
Prerequisiti
Per utilizzare l'operatore addetto alla HyperPod formazione, è necessario aver completato i seguenti prerequisiti:
-
Configura il tuo HyperPod cluster con un Amazon VPC personalizzato
-
Hai installato l'AMI più recente sul tuo HyperPod cluster. Per ulteriori informazioni, consulta SageMaker HyperPod Versioni AMI per Amazon EKS