Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Cycle de vie et étiquettes des nœuds
Amazon SageMaker HyperPod effectue des contrôles de santé approfondis sur les instances de cluster lors de la création et de la mise à jour des HyperPod clusters avant le début du partitionnement du GPU. HyperPod un agent de surveillance de l'état surveille en permanence l'état de santé des instances partitionnées par GPU.
États de configuration MIG
Les nœuds dotés d'une configuration de partition GPU passent par plusieurs états :
-
En attente : le nœud est configuré avec un profil MIG
-
Configuration - L'opérateur GPU applique le partitionnement MIG
-
Succès - Le partitionnement du GPU s'est terminé avec succès
-
Échec : le partitionnement du GPU a rencontré une erreur
Surveillance de l'état des nœuds
# Check node health status kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable # Monitor MIG configuration progress kubectl get nodeNODE_NAME-o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}' # Check for configuration errors kubectl describe nodeNODE_NAME| grep -A 5 "Conditions:"
Étiquettes et teintures personnalisées
Vous pouvez gérer la configuration MIG à l'aide d'étiquettes et de nuances personnalisées pour étiqueter vos partitions GPU et les appliquer à toutes les instances :
{ "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-2g.10gb", "task-type": "inference", "environment": "production" }, "Taints": [ { "Key": "gpu-task", "Value": "mig-enabled", "Effect": "NoSchedule" } ] } }