Voraussetzungen Schritt 1: Stellen Sie einen GPU-Workload bereit Schritt 2: Validieren Schritt 3: Aufräumen NodePools Beispielreferenz

Hilf mit, diese Seite zu verbessern

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Wenn Sie zu diesem Benutzerhandbuch beitragen möchten, wählen Sie den GitHub Link Diese Seite bearbeiten auf, der sich im rechten Bereich jeder Seite befindet.

Stellen Sie einen beschleunigten Workload bereit

Dieses Tutorial zeigt, wie Amazon EKS Auto Mode das Starten beschleunigter Workloads vereinfacht. Amazon EKS Auto Mode optimiert Abläufe, die über den Cluster selbst hinausgehen, indem wichtige Infrastrukturkomponenten automatisiert werden und sofort einsatzbereite Rechen-, Netzwerk-, Lastausgleichs-, Speicher- und Identitätszugriffs- und Verwaltungsfunktionen bereitgestellt werden.

Amazon EKS Auto Mode umfasst die Treiber und Geräte-Plug-ins, die für bestimmte Instance-Typen wie NVIDIA- und AWS Neuron-Treiber erforderlich sind. Sie müssen diese Komponenten nicht installieren oder aktualisieren.

Der EKS Auto Mode verwaltet automatisch die Treiber für diese Beschleuniger:

Anmerkung

Der automatische Modus von EKS beinhaltet das NVIDIA-Geräte-Plugin für Kubernetes. Dieses Plugin wird automatisch ausgeführt und ist als Daemon-Set in Ihrem Cluster nicht sichtbar.

Zusätzliche Netzwerkunterstützung:

Elastic Fabric Adapter (EFA)

Der automatische Modus von Amazon EKS macht die mühsame Verwaltung von Beschleunigertreibern und Geräte-Plug-ins überflüssig.

Sie können auch von Kosteneinsparungen profitieren, indem Sie den Cluster auf Null skalieren. Sie können den automatischen EKS-Modus so konfigurieren, dass Instanzen beendet werden, wenn keine Workloads ausgeführt werden. Dies ist nützlich für stapelbasierte Inferenz-Workloads.

Im Folgenden finden Sie ein Beispiel dafür, wie Sie beschleunigte Workloads mit Amazon EKS Auto Mode starten können.

Voraussetzungen

Ein Kubernetes-Cluster mit konfiguriertem Amazon EKS Auto Mode.
Eine default EKS-Node-Klasse, die erstellt wurde, wenn die general-purpose oder system Managed Node Pools aktiviert sind.

Schritt 1: Stellen Sie einen GPU-Workload bereit

In diesem Beispiel erstellen Sie eine NodePool für NVIDIA-basierte Workloads, die 45 GB GPU-Speicher benötigen. Im automatischen Modus von EKS verwenden Sie Kubernetes-Scheduling-Einschränkungen, um Ihre Instanzanforderungen zu definieren.

Um den Amazon EKS Auto Mode NodePool und das Beispiel bereitzustellenworkload, überprüfen Sie Folgendes NodePool und die Pod-Definition und speichern Sie unter nodepool-gpu.yaml undpod.yaml:

nodepool-gpu.yaml


apiVersion: karpenter.sh/v1
kind: NodePool
metadata:
  name: gpu
spec:
  disruption:
    budgets:
    - nodes: 10%
    consolidateAfter: 1h
    consolidationPolicy: WhenEmpty
  template:
    metadata: {}
    spec:
      nodeClassRef:
        group: eks.amazonaws.com
        kind: NodeClass
        name: default
      requirements:
        - key: "karpenter.sh/capacity-type"
          operator: In
          values: ["on-demand"]
        - key: "kubernetes.io/arch"
          operator: In
          values: ["amd64"]
        - key: "eks.amazonaws.com/instance-family"
          operator: In
          values:
          - g6e
          - g6
      taints:
        - key: nvidia.com/gpu
          effect: NoSchedule
      terminationGracePeriod: 24h0m0s

pod.yaml


apiVersion: v1
kind: Pod
metadata:
  name: nvidia-smi
spec:
  nodeSelector:
    eks.amazonaws.com/compute-type: auto
  restartPolicy: OnFailure
  containers:
  - name: nvidia-smi
    image: public.ecr.aws/amazonlinux/amazonlinux:2023-minimal
    args:
    - "nvidia-smi"
    resources:
      requests:
        memory: "30Gi"
        cpu: "3500m"
        nvidia.com/gpu: 1
      limits:
        memory: "30Gi"
        nvidia.com/gpu: 1
  tolerations:
  - key: nvidia.com/gpu
    effect: NoSchedule
    operator: Exists

Beachten Sie, dass der eks.amazonaws.com/compute-type: auto Selektor erfordert, dass der Workload auf einem Amazon EKS Auto Mode-Knoten bereitgestellt wird. Das ist NodePool auch ein Makel, dass nur Pods mit Toleranzen für Nvidia GPUs geplant werden können.

Wenden Sie die Arbeitslast NodePool und den Workload auf Ihren Cluster an.


kubectl apply -f nodepool-gpu.yaml
kubectl apply -f pod.yaml

Die Ausgabe sollte folgendermaßen aussehen:


nodepool.karpenter.sh/gpu configured created
pod/nvidia-smi created

Warten Sie ein paar Sekunden und überprüfen Sie die Knoten in Ihrem Cluster. Sie sollten jetzt einen neuen Knoten sehen, der in Ihrem Amazon EKS Auto Mode-Cluster bereitgestellt wurde:


> kubectl get nodes

NAME        TYPE          CAPACITY    ZONE         NODE                  READY   AGE
gpu-dnknr   g6e.2xlarge   on-demand   us-west-2b   i-02315c7d7643cdee6   True    76s

Schritt 2: Validieren

Sie können sehen, dass Amazon EKS Auto Mode g6e.2xlarge statt eines gestartet hat, g6.2xlarge da für die Arbeitslast eine Instance mit l40s erforderlich warGPU, und zwar gemäß den folgenden Kubernetes-Scheduling-Einschränkungen:


...
  nodeSelector:
    eks.amazonaws.com/instance-gpu-name: l40s
...
    requests:
        memory: "30Gi"
        cpu: "3500m"
        nvidia.com/gpu: 1
      limits:
        memory: "30Gi"
        nvidia.com/gpu: 1

Sehen Sie sich nun die Container-Logs an, indem Sie den folgenden Befehl ausführen:


kubectl logs nvidia-smi

Beispielausgabe:


+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.230.02             Driver Version: 535.230.02   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA L40S                    On  | 00000000:30:00.0 Off |                    0 |
| N/A   27C    P8              23W / 350W |      0MiB / 46068MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+

Sie können sehen, dass der Container erkannt hat, dass er auf einer Instance mit einer NVIDIA GPU läuft, und dass Sie keine Gerätetreiber installieren mussten, da dies vom Amazon EKS Auto Mode verwaltet wird.

Schritt 3: Aufräumen

Um alle erstellten Objekte zu entfernen, verwenden Sie, kubectl um die Beispielbereitstellung zu löschen, NodePool sodass der Knoten beendet wird:

kubectl delete -f nodepool-gpu.yaml
kubectl delete -f pod.yaml

NodePools Beispielreferenz

Erstellen Sie eine NVIDIA NodePool

Im Folgenden wird Folgendes NodePool definiert:

Startet nur Instances von einer g6e g6 Familie
Konsolidieren Sie Knoten, wenn sie 1 Stunde lang leer sind
- Der Wert von 1 Stunde für consolodateAfter unterstützt hohe Arbeitslasten und reduziert die Abwanderung von Knoten. Sie können die Einstellungen an Ihre consolidateAfter Workload-Anforderungen anpassen.

Beispiel NodePool mit GPU-Instanzfamilie und Konsolidierung


apiVersion: karpenter.sh/v1
kind: NodePool
metadata:
  name: gpu
spec:
  disruption:
    budgets:
    - nodes: 10%
    consolidateAfter: 1h
    consolidationPolicy: WhenEmpty
  template:
    metadata: {}
    spec:
      nodeClassRef:
        group: eks.amazonaws.com
        kind: NodeClass
        name: default
      requirements:
        - key: "karpenter.sh/capacity-type"
          operator: In
          values: ["on-demand"]
        - key: "kubernetes.io/arch"
          operator: In
          values: ["amd64"]
        - key: "eks.amazonaws.com/instance-family"
          operator: In
          values:
          - g6e
          - g6
      terminationGracePeriod: 24h0m0s

Anstatt das festzulegen, eks.amazonaws.com/instance-gpu-name können Sie eks.amazonaws.com/instance-family die Instanzfamilie angeben. Weitere bekannte Bezeichnungen, die Einfluss auf die Überprüfung der Terminplanung haben, finden Sie unterVon EKS Auto Mode unterstützte Labels.

Wenn Sie spezielle Speicheranforderungen haben, können Sie den kurzlebigen Speicher der Knoten anpassen size und throughput Ihren eigenen Speicher erstelleniops, auf den Sie NodeClasszurückgreifen können. NodePool Erfahren Sie mehr über die konfigurierbaren NodeClass Optionen.

Beispiel für eine Speicherkonfiguration für NodeClass


apiVersion: eks.amazonaws.com/v1
kind: NodeClass
metadata:
  name: gpu
spec:
  ephemeralStorage:
    iops: 3000
    size: 80Gi
    throughput: 125

Definieren Sie ein AWS Trainium und Inferentia AWS NodePool

Im Folgenden NodePool ist eks.amazonaws.com/instance-category festgelegt, dass nur Instanzen der Inferentia- und Trainium-Familie gestartet werden sollen:

        - key: "eks.amazonaws.com/instance-category"
          operator: In
          values:
            - inf
            - trn

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Taggen Sie Subnetze

CIS-Bericht generieren