Lebenszyklus und Labels von Knoten - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Lebenszyklus und Labels von Knoten

Amazon SageMaker HyperPod führt während der Erstellung und Aktualisierung von HyperPod Clustern vor Beginn der GPU-Partitionierung gründliche Integritätsprüfungen für Cluster-Instances durch. HyperPod Der Health Monitoring Agent überwacht kontinuierlich den Integritätsstatus von GPU-partitionierten Instances.

Status der MIG-Konfiguration

Knoten mit GPU-Partitionskonfiguration durchlaufen mehrere Zustände:

  • Ausstehend — Der Knoten wird mit einem MIG-Profil konfiguriert

  • Konfiguration — Der GPU-Operator wendet die MIG-Partitionierung an

  • Erfolgreich — Die GPU-Partitionierung wurde erfolgreich abgeschlossen

  • Fehlgeschlagen — Bei der GPU-Partitionierung ist ein Fehler aufgetreten

Überwachen von Knotenzuständen

# Check node health status kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable # Monitor MIG configuration progress kubectl get node NODE_NAME -o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}' # Check for configuration errors kubectl describe node NODE_NAME | grep -A 5 "Conditions:"

Benutzerdefinierte Labels und Taints

Sie können die MIG-Konfiguration mit benutzerdefinierten Labels und Taints verwalten, um Ihre GPU-Partitionen zu kennzeichnen und sie instanzübergreifend anzuwenden:

{ "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-2g.10gb", "task-type": "inference", "environment": "production" }, "Taints": [ { "Key": "gpu-task", "Value": "mig-enabled", "Effect": "NoSchedule" } ] } }