Cycle de vie et étiquettes des nœuds - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Cycle de vie et étiquettes des nœuds

Amazon SageMaker HyperPod effectue des contrôles de santé approfondis sur les instances de cluster lors de la création et de la mise à jour des HyperPod clusters avant le début du partitionnement du GPU. HyperPod un agent de surveillance de l'état surveille en permanence l'état de santé des instances partitionnées par GPU.

États de configuration MIG

Les nœuds dotés d'une configuration de partition GPU passent par plusieurs états :

  • En attente : le nœud est configuré avec un profil MIG

  • Configuration - L'opérateur GPU applique le partitionnement MIG

  • Succès - Le partitionnement du GPU s'est terminé avec succès

  • Échec : le partitionnement du GPU a rencontré une erreur

Surveillance de l'état des nœuds

# Check node health status kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable # Monitor MIG configuration progress kubectl get node NODE_NAME -o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}' # Check for configuration errors kubectl describe node NODE_NAME | grep -A 5 "Conditions:"

Étiquettes et teintures personnalisées

Vous pouvez gérer la configuration MIG à l'aide d'étiquettes et de nuances personnalisées pour étiqueter vos partitions GPU et les appliquer à toutes les instances :

{ "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-2g.10gb", "task-type": "inference", "environment": "production" }, "Taints": [ { "Key": "gpu-task", "Value": "mig-enabled", "Effect": "NoSchedule" } ] } }