Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
GPU-Partitionen bei Amazon einrichten SageMaker HyperPod
Themen
Voraussetzungen
-
HyperPod Amazon EKS-Cluster mit unterstützten GPU-Instances
-
NVIDIA GPU Operator ist installiert
-
Entsprechende IAM-Berechtigungen für die Clusterverwaltung
Einen Cluster mit MIG-Konfiguration erstellen
Verwenden AWS CLI
aws sagemaker create-cluster \ --cluster-name my-mig-cluster \ --orchestrator 'Eks={ClusterArn=arn:aws:eks:region:account:cluster/cluster-name}' \ --instance-groups '{ "InstanceGroupName": "gpu-group", "InstanceType": "ml.p4d.24xlarge", "InstanceCount": 1, "LifeCycleConfig": { "SourceS3Uri": "s3://my-bucket", "OnCreate": "on_create_script.sh" }, "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-1g.5gb" } }, "ExecutionRole": "arn:aws:iam::account:role/execution-role", "ThreadsPerCore": 1 }' \ --vpc-config '{ "SecurityGroupIds": ["sg-12345"], "Subnets": ["subnet-12345"] }' \ --node-provisioning-mode Continuous
Verwenden CloudFormation
{ "ClusterName": "my-mig-cluster", "InstanceGroups": [ { "InstanceGroupName": "gpu-group", "InstanceType": "ml.p4d.24xlarge", "InstanceCount": 1, "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-2g.10gb" } }, "ExecutionRole": "arn:aws:iam::account:role/execution-role" } ], "Orchestrator": { "Eks": { "ClusterArn": "arn:aws:eks:region:account:cluster/cluster-name" } }, "NodeProvisioningMode": "Continuous" }
Hinzufügen eines GPU-Operators zu einem vorhandenen Cluster
Installieren Sie den GPU Operator
{$AWS_REGION}Ersetzen Sie es durch Ihre Clusterregion (z. B. us-east-1, us-west-2).
helm install gpuo helm_chart/HyperPodHelmChart/charts/gpu-operator \ -f helm_chart/HyperPodHelmChart/charts/gpu-operator/regional-values/values-{$AWS_REGION}.yaml \ -n kube-system
Überprüfen Sie die Installation (warten Sie 2-3 Minuten)
Überprüfen Sie, ob alle GPU-Operator-Pods laufen:
kubectl get pods -n kube-system | grep -E "(gpu-operator|nvidia-)"
Erwartete Pods:
-
gpu-operator-* — 1 Instanz (Cluster-Controller)
-
nvidia-device-plugin-daemonset-* - 1 pro GPU-Knoten (alle GPU-Instanzen)
-
nvidia-mig-manager-* - 1 pro MIG-fähigem Knoten (A100/H100)
Entfernen Sie das alte Geräte-Plug-In
Deaktivieren Sie das vorhandene nvidia-device-plugin:
helm upgrade dependencies helm_chart/HyperPodHelmChart \ --set nvidia-device-plugin.devicePlugin.enabled=false \ -n kube-system
Überprüfen Sie die GPU-Ressourcen
Bestätigen Sie, dass die Knoten GPU-Kapazität anzeigen. Es sollte Folgendes anzeigen: nvidia.com/gpu: 8 (oder deine tatsächliche GPU-Anzahl).
kubectl describe nodes | grep "nvidia.com/gpu"
Die MIG-Konfiguration wird aktualisiert
Knoten vor MIG-Updates vorbereiten
Bevor Sie die MIG-Konfigurationen in Ihrer Instanzgruppe aktualisieren, müssen Sie die Knoten vorbereiten, um eine Unterbrechung der Arbeitslast zu vermeiden. Gehen Sie wie folgt vor, um Workloads sicher von den Knoten abzuleiten, die neu konfiguriert werden.
Schritt 1: Identifizieren Sie die Knoten in der Instanzgruppe
Identifizieren Sie zunächst alle Knoten, die zu der Instanzgruppe gehören, die Sie aktualisieren möchten:
# List all nodes in the instance group kubectl get nodes -l sagemaker.amazonaws.com/instance-group-name=INSTANCE_GROUP_NAME# Example: kubectl get nodes -l sagemaker.amazonaws.com/instance-group-name=p4d-group
Dieser Befehl gibt eine Liste aller Knoten in der angegebenen Instanzgruppe zurück. Notieren Sie sich jeden Knotennamen für die folgenden Schritte.
Schritt 2: Sperren und Entleeren Sie jeden Knoten
Führen Sie für jeden in Schritt 1 identifizierten Knoten die folgenden Aktionen aus:
Sperren Sie den Knoten ab
Durch das Absperren wird verhindert, dass neue Pods auf dem Knoten geplant werden:
# Cordon a single node kubectl cordonNODE_NAME# Example: kubectl cordon hyperpod-i-014a41a7001adca60
Workload-Pods vom Knoten entleeren
Entleeren Sie den Knoten, um alle Workload-Pods zu entfernen und gleichzeitig die System-Pods beizubehalten:
# Drain the node (ignore DaemonSets and evict pods) kubectl drainNODE_NAME\ --ignore-daemonsets \ --delete-emptydir-data \ --force \ --grace-period=300 # Example: kubectl drain hyperpod-i-014a41a7001adca60 \ --ignore-daemonsets \ --delete-emptydir-data \ --force \ --grace-period=300
Erläuterung der Befehlsoptionen:
-
--ignore-daemonsets- Ermöglicht es, den Entleerungsvorgang auch dann fortzusetzen, wenn DaemonSet Pods vorhanden sind -
--delete-emptydir-data— Löscht Pods mithilfe von EmptyDir-Volumes (erforderlich, damit das Entleeren erfolgreich ist) -
--force- Erzwingt das Löschen von Pods, die nicht von einem Controller verwaltet werden (mit Vorsicht verwenden) -
--grace-period=300- Gibt Pods 5 Minuten Zeit, um sie ordnungsgemäß zu beenden
Wichtig
-
Der Entleerungsvorgang kann je nach Anzahl der Pods und deren Übergangsfristen mehrere Minuten dauern
-
System-Pods in den folgenden Namespaces werden weiterhin ausgeführt:
kube-system,cert-manager,kubeflow,hyperpod-inference-system,kube-public,,mpi-operator,gpu-operator,aws-hyperpodjupyter-k8s-system, undhyperpod-observabilitykueue-systemkeda -
DaemonSet Pods bleiben auf dem Knoten (sie werden vom Design her ignoriert)
Schritt 3: Stellen Sie sicher, dass keine Workload-Pods ausgeführt werden
Stellen Sie nach dem Entleeren sicher, dass keine Workload-Pods auf den Knoten verbleiben (außer System-Namespaces):
# Check for any remaining pods outside system namespaces kubectl get pods --all-namespaces --field-selector spec.nodeName=NODE_NAME\ | grep -v "kube-system" \ | grep -v "cert-manager" \ | grep -v "kubeflow" \ | grep -v "hyperpod-inference-system" \ | grep -v "kube-public" \ | grep -v "mpi-operator" \ | grep -v "gpu-operator" \ | grep -v "aws-hyperpod" \ | grep -v "jupyter-k8s-system" \ | grep -v "hyperpod-observability" \ | grep -v "kueue-system" \ | grep -v "keda" # Example: kubectl get pods --all-namespaces --field-selector spec.nodeName=hyperpod-i-014a41a7001adca60 \ | grep -v "kube-system" \ | grep -v "cert-manager" \ | grep -v "kubeflow" \ | grep -v "hyperpod-inference-system" \ | grep -v "kube-public" \ | grep -v "mpi-operator" \ | grep -v "gpu-operator" \ | grep -v "aws-hyperpod" \ | grep -v "jupyter-k8s-system" \ | grep -v "hyperpod-observability" \ | grep -v "kueue-system" \ | grep -v "keda"
Erwartete Ausgabe: Wenn der Knoten ordnungsgemäß entleert wurde, sollte dieser Befehl keine Ergebnisse zurückgeben (oder nur die Kopfzeile anzeigen). Falls noch Pods laufen, untersuchen Sie, warum sie nicht entfernt wurden, und löschen Sie sie gegebenenfalls manuell.
Schritt 4: Überprüfen Sie den Bereitschaftsstatus des Knotens
Bevor Sie mit dem MIG-Update fortfahren, stellen Sie sicher, dass alle Knoten gesperrt sind:
# Check node status - should show "SchedulingDisabled" kubectl get nodes -l sagemaker.amazonaws.com/instance-group-name=INSTANCE_GROUP_NAME
Die Knoten sollten SchedulingDisabled in der STATUS-Spalte angezeigt werden, was bedeutet, dass sie gesperrt und bereit für das MIG-Update sind.
MIG-Profil auf vorhandenem Cluster aktualisieren
Sie können MIG-Profile auf vorhandenen Clustern ändern:
aws sagemaker update-cluster \ --cluster-name my-mig-cluster \ --instance-groups '{ "InstanceGroupName": "gpu-group", "InstanceType": "ml.p4d.24xlarge", "InstanceCount": 1, "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-3g.20gb" } }, "ExecutionRole": "arn:aws:iam::account:role/execution-role" }'
Anmerkung
Wenn Jobs bereits auf einem Knoten ausgeführt werden, schlägt die MIG-Partitionierung fehl. Der Benutzer erhält eine Fehlermeldung mit der Aufforderung, die Knoten zu entleeren, bevor er erneut versucht, die MIG-Partitionierung durchzuführen.
Die MIG-Konfiguration wird überprüft
Überprüfen Sie nach der Erstellung oder Aktualisierung des Clusters die MIG-Konfiguration:
# Update kubeconfig aws eks update-kubeconfig --nameyour-eks-cluster--regionus-east-2# Check MIG labels kubectl get nodeNODE_NAME-o=jsonpath='{.metadata.labels}' | grep mig # Check available MIG resources kubectl describe nodeNODE_NAME| grep -A 10 "Allocatable:"
Allgemeine Befehle zum Debuggen der MIG-Konfiguration
Verwenden Sie die folgenden Befehle, um Fehler bei der MIG-Konfiguration in Ihrem Cluster zu beheben und zu überprüfen:
# Check GPU Operator status kubectl get pods -n gpu-operator-resources # View MIG configuration kubectl exec -n gpu-operator-resources nvidia-driver-XXXXX -- nvidia-smi mig -lgi # Check device plugin configuration kubectl logs -n gpu-operator-resources nvidia-device-plugin-XXXXX # Monitor node events kubectl get events --field-selector involvedObject.name=NODE_NAME
Anmerkung
Ersetzen Sie nvidia-driver-XXXXX und nvidia-device-plugin-XXXXX durch die tatsächlichen Pod-Namen aus Ihrem Cluster und NODE_NAME durch den Namen Ihres Knotens.
Verwenden der SageMaker AI-Konsole
Einen neuen Cluster mit MIG erstellen
-
Navigieren Sie zu Amazon SageMaker AI > HyperPod Clusters > Cluster Management > HyperPod Cluster erstellen
-
Wählen Sie Orchestriert von EKS
-
Wählen Sie Benutzerdefiniertes Setup und stellen Sie sicher, dass der GPU-Operator standardmäßig aktiviert ist
-
Klicken Sie im Abschnitt Instanzgruppen auf Gruppe hinzufügen
-
Konfigurieren Sie die Instanzgruppe und navigieren Sie zu Erweiterte Konfiguration, um die Option GPU-Partition verwenden zu aktivieren, und wählen Sie die gewünschte MIG-Konfiguration aus dem Drop-down-Menü
-
Klicken Sie auf Instanzgruppe hinzufügen und schließen Sie die verbleibende Clusterkonfiguration ab
-
Klicken Sie auf Senden, um den Cluster zu erstellen
Die MIG-Konfiguration auf einem vorhandenen Cluster wird aktualisiert
-
Navigieren Sie zu Amazon SageMaker AI > HyperPod Clusters > Cluster Management
-
Wählen Sie Ihren vorhandenen Cluster aus und klicken Sie in der Instance-Gruppe, die Sie ändern möchten, auf Bearbeiten
-
Aktivieren Sie in der erweiterten Konfiguration die Option GPU-Partition verwenden, falls nicht bereits aktiviert, und wählen Sie eine andere MIG-Konfiguration aus der Dropdownliste aus
-
Klicken Sie auf Änderungen speichern