Ciclo di vita dei nodi ed etichette - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Ciclo di vita dei nodi ed etichette

Amazon SageMaker HyperPod esegue controlli approfonditi sullo stato delle istanze del cluster durante la creazione e l'aggiornamento dei HyperPod cluster prima che inizi il partizionamento della GPU. HyperPod l'agente di monitoraggio dello stato di salute monitora continuamente lo stato di salute delle istanze partizionate con GPU.

Stati di configurazione MIG

I nodi con configurazione delle partizioni GPU attraversano diversi stati:

  • In sospeso: il nodo viene configurato con un profilo MIG

  • Configurazione: l'operatore GPU sta applicando il partizionamento MIG

  • Operazione riuscita: il partizionamento della GPU è stato completato correttamente

  • Fallito: il partizionamento della GPU ha rilevato un errore

Monitoraggio degli stati dei nodi

# Check node health status kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable # Monitor MIG configuration progress kubectl get node NODE_NAME -o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}' # Check for configuration errors kubectl describe node NODE_NAME | grep -A 5 "Conditions:"

Etichette e segni personalizzati

Puoi gestire la configurazione MIG con etichette e colori personalizzati per etichettare le partizioni GPU e applicarle a tutte le istanze:

{ "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-2g.10gb", "task-type": "inference", "environment": "production" }, "Taints": [ { "Key": "gpu-task", "Value": "mig-enabled", "Effect": "NoSchedule" } ] } }