Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Ciclo di vita dei nodi ed etichette
Amazon SageMaker HyperPod esegue controlli approfonditi sullo stato delle istanze del cluster durante la creazione e l'aggiornamento dei HyperPod cluster prima che inizi il partizionamento della GPU. HyperPod l'agente di monitoraggio dello stato di salute monitora continuamente lo stato di salute delle istanze partizionate con GPU.
Stati di configurazione MIG
I nodi con configurazione delle partizioni GPU attraversano diversi stati:
-
In sospeso: il nodo viene configurato con un profilo MIG
-
Configurazione: l'operatore GPU sta applicando il partizionamento MIG
-
Operazione riuscita: il partizionamento della GPU è stato completato correttamente
-
Fallito: il partizionamento della GPU ha rilevato un errore
Monitoraggio degli stati dei nodi
# Check node health status kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable # Monitor MIG configuration progress kubectl get nodeNODE_NAME-o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}' # Check for configuration errors kubectl describe nodeNODE_NAME| grep -A 5 "Conditions:"
Etichette e segni personalizzati
Puoi gestire la configurazione MIG con etichette e colori personalizzati per etichettare le partizioni GPU e applicarle a tutte le istanze:
{ "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-2g.10gb", "task-type": "inference", "environment": "production" }, "Taints": [ { "Key": "gpu-task", "Value": "mig-enabled", "Effect": "NoSchedule" } ] } }