Voraussetzungen Einen Cluster mit MIG-Konfiguration erstellen Hinzufügen eines GPU-Operators zu einem vorhandenen Cluster Die MIG-Konfiguration wird aktualisiert Die MIG-Konfiguration wird überprüft Allgemeine Befehle zum Debuggen der MIG-Konfiguration Verwenden der SageMaker AI-Konsole

GPU-Partitionen bei Amazon einrichten SageMaker HyperPod

Themen

Voraussetzungen
Einen Cluster mit MIG-Konfiguration erstellen
Hinzufügen eines GPU-Operators zu einem vorhandenen Cluster
Die MIG-Konfiguration wird aktualisiert
Die MIG-Konfiguration wird überprüft
Allgemeine Befehle zum Debuggen der MIG-Konfiguration
Verwenden der SageMaker AI-Konsole

Voraussetzungen

HyperPod Amazon EKS-Cluster mit unterstützten GPU-Instances
NVIDIA GPU Operator ist installiert
Entsprechende IAM-Berechtigungen für die Clusterverwaltung

Einen Cluster mit MIG-Konfiguration erstellen

Verwenden AWS CLI


aws sagemaker create-cluster \
  --cluster-name my-mig-cluster \
  --orchestrator 'Eks={ClusterArn=arn:aws:eks:region:account:cluster/cluster-name}' \
  --instance-groups '{
    "InstanceGroupName": "gpu-group",
    "InstanceType": "ml.p4d.24xlarge",
    "InstanceCount": 1,
    "LifeCycleConfig": {
       "SourceS3Uri": "s3://my-bucket",
       "OnCreate": "on_create_script.sh"
    },
    "KubernetesConfig": {
       "Labels": {
          "nvidia.com/mig.config": "all-1g.5gb"
       }
    },
    "ExecutionRole": "arn:aws:iam::account:role/execution-role",
    "ThreadsPerCore": 1
  }' \
  --vpc-config '{
     "SecurityGroupIds": ["sg-12345"],
     "Subnets": ["subnet-12345"]
  }' \
  --node-provisioning-mode Continuous

Verwenden CloudFormation


{
  "ClusterName": "my-mig-cluster",
  "InstanceGroups": [
    {
      "InstanceGroupName": "gpu-group",
      "InstanceType": "ml.p4d.24xlarge",
      "InstanceCount": 1,
      "KubernetesConfig": {
        "Labels": {
          "nvidia.com/mig.config": "all-2g.10gb"
        }
      },
      "ExecutionRole": "arn:aws:iam::account:role/execution-role"
    }
  ],
  "Orchestrator": {
    "Eks": {
      "ClusterArn": "arn:aws:eks:region:account:cluster/cluster-name"
    }
  },
  "NodeProvisioningMode": "Continuous"
}

Hinzufügen eines GPU-Operators zu einem vorhandenen Cluster

Installieren Sie den GPU Operator

{$AWS_REGION}Ersetzen Sie es durch Ihre Clusterregion (z. B. us-east-1, us-west-2).


helm install gpuo helm_chart/HyperPodHelmChart/charts/gpu-operator \
-f helm_chart/HyperPodHelmChart/charts/gpu-operator/regional-values/values-{$AWS_REGION}.yaml \
-n kube-system

Überprüfen Sie die Installation (warten Sie 2-3 Minuten)

Überprüfen Sie, ob alle GPU-Operator-Pods laufen:


kubectl get pods -n kube-system | grep -E "(gpu-operator|nvidia-)"

Erwartete Pods:

gpu-operator-* — 1 Instanz (Cluster-Controller)
nvidia-device-plugin-daemonset-* - 1 pro GPU-Knoten (alle GPU-Instanzen)
nvidia-mig-manager-* - 1 pro MIG-fähigem Knoten (A100/H100)

Entfernen Sie das alte Geräte-Plug-In

Deaktivieren Sie das vorhandene nvidia-device-plugin:


helm upgrade dependencies helm_chart/HyperPodHelmChart \
--set nvidia-device-plugin.devicePlugin.enabled=false \
-n kube-system

Überprüfen Sie die GPU-Ressourcen

Bestätigen Sie, dass die Knoten GPU-Kapazität anzeigen. Es sollte Folgendes anzeigen: nvidia.com/gpu: 8 (oder deine tatsächliche GPU-Anzahl).


kubectl describe nodes | grep "nvidia.com/gpu"

Die MIG-Konfiguration wird aktualisiert

Knoten vor MIG-Updates vorbereiten

Bevor Sie die MIG-Konfigurationen in Ihrer Instanzgruppe aktualisieren, müssen Sie die Knoten vorbereiten, um eine Unterbrechung der Arbeitslast zu vermeiden. Gehen Sie wie folgt vor, um Workloads sicher von den Knoten abzuleiten, die neu konfiguriert werden.

Schritt 1: Identifizieren Sie die Knoten in der Instanzgruppe

Identifizieren Sie zunächst alle Knoten, die zu der Instanzgruppe gehören, die Sie aktualisieren möchten:


# List all nodes in the instance group
kubectl get nodes -l sagemaker.amazonaws.com/instance-group-name=INSTANCE_GROUP_NAME

# Example:
kubectl get nodes -l sagemaker.amazonaws.com/instance-group-name=p4d-group

Dieser Befehl gibt eine Liste aller Knoten in der angegebenen Instanzgruppe zurück. Notieren Sie sich jeden Knotennamen für die folgenden Schritte.

Schritt 2: Sperren und Entleeren Sie jeden Knoten

Führen Sie für jeden in Schritt 1 identifizierten Knoten die folgenden Aktionen aus:

Sperren Sie den Knoten ab

Durch das Absperren wird verhindert, dass neue Pods auf dem Knoten geplant werden:


# Cordon a single node
kubectl cordon NODE_NAME

# Example:
kubectl cordon hyperpod-i-014a41a7001adca60

Workload-Pods vom Knoten entleeren

Entleeren Sie den Knoten, um alle Workload-Pods zu entfernen und gleichzeitig die System-Pods beizubehalten:


# Drain the node (ignore DaemonSets and evict pods)
kubectl drain NODE_NAME \
  --ignore-daemonsets \
  --delete-emptydir-data \
  --force \
  --grace-period=300

# Example:
kubectl drain hyperpod-i-014a41a7001adca60 \
  --ignore-daemonsets \
  --delete-emptydir-data \
  --force \
  --grace-period=300

Erläuterung der Befehlsoptionen:

--ignore-daemonsets- Ermöglicht es, den Entleerungsvorgang auch dann fortzusetzen, wenn DaemonSet Pods vorhanden sind
--delete-emptydir-data— Löscht Pods mithilfe von EmptyDir-Volumes (erforderlich, damit das Entleeren erfolgreich ist)
--force- Erzwingt das Löschen von Pods, die nicht von einem Controller verwaltet werden (mit Vorsicht verwenden)
--grace-period=300- Gibt Pods 5 Minuten Zeit, um sie ordnungsgemäß zu beenden

Wichtig

Der Entleerungsvorgang kann je nach Anzahl der Pods und deren Übergangsfristen mehrere Minuten dauern
System-Pods in den folgenden Namespaces werden weiterhin ausgeführt:kube-system,cert-manager,kubeflow,hyperpod-inference-system,kube-public,,mpi-operator,gpu-operator, aws-hyperpodjupyter-k8s-system, und hyperpod-observability kueue-system keda
DaemonSet Pods bleiben auf dem Knoten (sie werden vom Design her ignoriert)

Schritt 3: Stellen Sie sicher, dass keine Workload-Pods ausgeführt werden

Stellen Sie nach dem Entleeren sicher, dass keine Workload-Pods auf den Knoten verbleiben (außer System-Namespaces):


# Check for any remaining pods outside system namespaces
kubectl get pods --all-namespaces --field-selector spec.nodeName=NODE_NAME \
  | grep -v "kube-system" \
  | grep -v "cert-manager" \
  | grep -v "kubeflow" \
  | grep -v "hyperpod-inference-system" \
  | grep -v "kube-public" \
  | grep -v "mpi-operator" \
  | grep -v "gpu-operator" \
  | grep -v "aws-hyperpod" \
  | grep -v "jupyter-k8s-system" \
  | grep -v "hyperpod-observability" \
  | grep -v "kueue-system" \
  | grep -v "keda"

# Example:
kubectl get pods --all-namespaces --field-selector spec.nodeName=hyperpod-i-014a41a7001adca60 \
  | grep -v "kube-system" \
  | grep -v "cert-manager" \
  | grep -v "kubeflow" \
  | grep -v "hyperpod-inference-system" \
  | grep -v "kube-public" \
  | grep -v "mpi-operator" \
  | grep -v "gpu-operator" \
  | grep -v "aws-hyperpod" \
  | grep -v "jupyter-k8s-system" \
  | grep -v "hyperpod-observability" \
  | grep -v "kueue-system" \
  | grep -v "keda"

Erwartete Ausgabe: Wenn der Knoten ordnungsgemäß entleert wurde, sollte dieser Befehl keine Ergebnisse zurückgeben (oder nur die Kopfzeile anzeigen). Falls noch Pods laufen, untersuchen Sie, warum sie nicht entfernt wurden, und löschen Sie sie gegebenenfalls manuell.

Schritt 4: Überprüfen Sie den Bereitschaftsstatus des Knotens

Bevor Sie mit dem MIG-Update fortfahren, stellen Sie sicher, dass alle Knoten gesperrt sind:


# Check node status - should show "SchedulingDisabled"
kubectl get nodes -l sagemaker.amazonaws.com/instance-group-name=INSTANCE_GROUP_NAME

Die Knoten sollten SchedulingDisabled in der STATUS-Spalte angezeigt werden, was bedeutet, dass sie gesperrt und bereit für das MIG-Update sind.

MIG-Profil auf vorhandenem Cluster aktualisieren

Sie können die MIG-Profile auf vorhandenen Clustern ändern:


aws sagemaker update-cluster \
  --cluster-name my-mig-cluster \
  --instance-groups '{
    "InstanceGroupName": "gpu-group",
    "InstanceType": "ml.p4d.24xlarge",
    "InstanceCount": 1,
    "KubernetesConfig": {
       "Labels": {
          "nvidia.com/mig.config": "all-3g.20gb"
       }
    },
    "ExecutionRole": "arn:aws:iam::account:role/execution-role"
  }'

Anmerkung

Wenn Jobs bereits auf einem Knoten ausgeführt werden, schlägt die MIG-Partitionierung fehl. Der Benutzer erhält eine Fehlermeldung mit der Aufforderung, die Knoten zu entleeren, bevor er erneut versucht, die MIG-Partitionierung durchzuführen.

Die MIG-Konfiguration wird überprüft

Überprüfen Sie nach der Erstellung oder Aktualisierung des Clusters die MIG-Konfiguration:


# Update kubeconfig
aws eks update-kubeconfig --name your-eks-cluster --region us-east-2

# Check MIG labels
kubectl get node NODE_NAME -o=jsonpath='{.metadata.labels}' | grep mig

# Check available MIG resources
kubectl describe node NODE_NAME | grep -A 10 "Allocatable:"

Allgemeine Befehle zum Debuggen der MIG-Konfiguration

Verwenden Sie die folgenden Befehle, um Fehler bei der MIG-Konfiguration in Ihrem Cluster zu beheben und zu überprüfen:


# Check GPU Operator status
kubectl get pods -n gpu-operator-resources

# View MIG configuration
kubectl exec -n gpu-operator-resources nvidia-driver-XXXXX -- nvidia-smi mig -lgi

# Check device plugin configuration
kubectl logs -n gpu-operator-resources nvidia-device-plugin-XXXXX

# Monitor node events
kubectl get events --field-selector involvedObject.name=NODE_NAME

Anmerkung

Ersetzen Sie nvidia-driver-XXXXX und nvidia-device-plugin-XXXXX durch die tatsächlichen Pod-Namen aus Ihrem Cluster und NODE_NAME durch den Namen Ihres Knotens.

Verwenden der SageMaker AI-Konsole

Einen neuen Cluster mit MIG erstellen

Navigieren Sie zu Amazon SageMaker AI > HyperPod Clusters > Cluster Management > HyperPod Cluster erstellen
Wählen Sie Orchestriert von EKS
Wählen Sie Benutzerdefiniertes Setup und stellen Sie sicher, dass GPU Operator standardmäßig aktiviert ist
Klicken Sie im Abschnitt Instanzgruppen auf Gruppe hinzufügen
Konfigurieren Sie die Instanzgruppe und navigieren Sie zu Erweiterte Konfiguration, um die Option GPU-Partition verwenden zu aktivieren, und wählen Sie die gewünschte MIG-Konfiguration aus der Dropdownliste aus
Klicken Sie auf Instanzgruppe hinzufügen und schließen Sie die verbleibende Clusterkonfiguration ab
Klicken Sie auf Senden, um den Cluster zu erstellen

Die MIG-Konfiguration auf einem vorhandenen Cluster wird aktualisiert

Navigieren Sie zu Amazon SageMaker AI > HyperPod Clusters > Cluster Management
Wählen Sie Ihren vorhandenen Cluster aus und klicken Sie in der Instance-Gruppe, die Sie ändern möchten, auf Bearbeiten
Aktivieren Sie in der erweiterten Konfiguration die Option GPU-Partition verwenden, falls nicht bereits aktiviert, und wählen Sie eine andere MIG-Konfiguration aus der Dropdownliste
Klicken Sie auf Änderungen speichern

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

GPU-Partitionierung

Lebenszyklus eines Knotens