Utilizzo dell'operatore addetto HyperPod alla formazione - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo dell'operatore addetto HyperPod alla formazione

L'operatore di SageMaker HyperPod formazione di Amazon ti aiuta ad accelerare lo sviluppo di modelli di intelligenza artificiale generativi gestendo in modo efficiente la formazione distribuita su cluster di GPU di grandi dimensioni. Introduce funzionalità intelligenti di ripristino degli errori, rilevamento delle interruzioni e gestione a livello di processo che riducono al minimo le interruzioni della formazione e riducono i costi. A differenza dell'infrastruttura di formazione tradizionale che richiede il riavvio completo del lavoro in caso di guasto, questo operatore implementa il ripristino del processo chirurgico per mantenere i lavori di formazione senza intoppi.

L'operatore collabora anche con le funzioni di monitoraggio HyperPod dello stato di salute e osservabilità, che forniscono visibilità in tempo reale sull'esecuzione della formazione e il monitoraggio automatico di parametri critici come i picchi di perdita e il degrado della produttività. È possibile definire politiche di ripristino tramite semplici configurazioni YAML senza modifiche al codice, in modo da rispondere rapidamente e ripristinare stati di allenamento irrecuperabili. Queste funzionalità di monitoraggio e ripristino interagiscono per mantenere prestazioni di allenamento ottimali riducendo al minimo il sovraccarico operativo.

Sebbene Kueue non sia necessario per questo operatore di formazione, l'amministratore del cluster può installarlo e configurarlo per migliorare le funzionalità di pianificazione dei lavori. Per ulteriori informazioni, consulta la documentazione ufficiale di Kueue.

Nota

Per utilizzare l'operatore di formazione, è necessario utilizzare l'ultima versione HyperPod AMI. Per eseguire l'aggiornamento, utilizzate l'operazione UpdateClusterSoftwareAPI. Se utilizzi la governance delle HyperPod attività, deve essere anche la versione più recente.

Versioni supportate

L'operatore di HyperPod formazione funziona solo con versioni specifiche di Kubernetes, Kueue e. HyperPod Consulta l'elenco seguente per l'elenco completo delle versioni compatibili.

L'operatore addetto alla HyperPod formazione è compatibile con Kueue, che l'amministratore del cluster può configurare per migliorare le funzionalità di pianificazione dei lavori. Per ulteriori informazioni, consulta la documentazione ufficiale di Kueue.

Prerequisiti

Per utilizzare l'operatore addetto alla HyperPod formazione, è necessario aver completato i seguenti prerequisiti: