Esecuzione di processi su SageMaker HyperPod cluster orchestrati da Amazon EKS - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esecuzione di processi su SageMaker HyperPod cluster orchestrati da Amazon EKS

I seguenti argomenti forniscono procedure ed esempi di accesso ai nodi di calcolo ed esecuzione di carichi di lavoro ML su SageMaker HyperPod cluster forniti orchestrati con Amazon EKS. A seconda di come hai configurato l'ambiente sul HyperPod cluster, esistono molti modi per eseguire carichi di lavoro ML sui cluster. HyperPod

Nota

Quando si eseguono lavori tramite SageMaker HyperPod CLI o kubectl, è HyperPod possibile tenere traccia dell'utilizzo del calcolo (ore GPU/CPU) tra i namespace (team). I report sul consumo energetico di queste metriche forniscono:

  • Visibilità del consumo di risorse allocate rispetto a quello delle risorse prese in prestito

  • Utilizzo delle risorse dei team per il controllo (fino a 180 giorni)

  • Attribuzione dei costi in linea con le politiche di Task Governance

Per utilizzare i report sull'utilizzo, è necessario installare l'infrastruttura dei report di utilizzo. Consigliamo vivamente di configurare Task Governance per applicare le quote di calcolo e abilitare l'attribuzione granulare dei costi.

Per ulteriori informazioni sulla configurazione e la generazione di report sull'utilizzo, consulta Reporting Compute Usage in. HyperPod

Suggerimento

Per un'esperienza pratica e indicazioni su come configurare e utilizzare un SageMaker HyperPod cluster orchestrato con Amazon EKS, consigliamo di seguire questo Amazon EKS Support in workshop. SageMaker HyperPod

Gli utenti di data scientist possono addestrare modelli fondamentali utilizzando il set di cluster EKS come orchestratore per il cluster. SageMaker HyperPod Gli scienziati sfruttano la SageMaker HyperPod CLI e i comandi kubectl nativi per trovare i cluster SageMaker HyperPod disponibili, inviare lavori di formazione (Pod) e gestire i propri carichi di lavoro. La SageMaker HyperPod CLI consente l'invio dei lavori utilizzando un file di schema dei lavori di formazione e fornisce funzionalità per l'elenco, la descrizione, l'annullamento e l'esecuzione dei lavori. Gli scienziati possono utilizzare Kubeflow Training Operator in base alle quote di calcolo gestite da e gestito dall'SageMaker IA per gestire gli esperimenti di HyperPod machine learning e le sessioni di MLflow formazione.