Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esecuzione di processi su SageMaker HyperPod cluster orchestrati da Amazon EKS
I seguenti argomenti forniscono procedure ed esempi di accesso ai nodi di calcolo ed esecuzione di carichi di lavoro ML su SageMaker HyperPod cluster forniti orchestrati con Amazon EKS. A seconda di come hai configurato l'ambiente sul HyperPod cluster, esistono molti modi per eseguire carichi di lavoro ML sui cluster. HyperPod
Nota
Quando si eseguono lavori tramite SageMaker HyperPod CLI o kubectl, è HyperPod possibile tenere traccia dell'utilizzo del calcolo (ore GPU/CPU) tra i namespace (team). I report sul consumo energetico di queste metriche forniscono:
-
Visibilità del consumo di risorse allocate rispetto a quello delle risorse prese in prestito
-
Utilizzo delle risorse dei team per il controllo (fino a 180 giorni)
-
Attribuzione dei costi in linea con le politiche di Task Governance
Per utilizzare i report sull'utilizzo, è necessario installare l'infrastruttura dei report di utilizzo. Consigliamo vivamente di configurare Task Governance per applicare le quote di calcolo e abilitare l'attribuzione granulare dei costi.
Suggerimento
Per un'esperienza pratica e indicazioni su come configurare e utilizzare un SageMaker HyperPod cluster orchestrato con Amazon EKS, consigliamo di seguire questo Amazon EKS Support
Gli utenti di data scientist possono addestrare modelli fondamentali utilizzando il set di cluster EKS come orchestratore per il cluster. SageMaker HyperPod Gli scienziati sfruttano la SageMaker HyperPod CLIkubectl
nativi per trovare i cluster SageMaker HyperPod disponibili, inviare lavori di formazione (Pod) e gestire i propri carichi di lavoro. La SageMaker HyperPod CLI consente l'invio dei lavori utilizzando un file di schema dei lavori di formazione e fornisce funzionalità per l'elenco, la descrizione, l'annullamento e l'esecuzione dei lavori. Gli scienziati possono utilizzare Kubeflow Training Operator