AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS
In den folgenden Versionshinweisen finden Sie die neuesten Updates für die AMI-Versionen von Amazon SageMaker HyperPod für die Amazon-EKS-Orchestrierung. Jeder Versionshinweis enthält eine zusammengefasste Liste der Pakete, die im SageMaker HyperPod DLAMIs für Amazon EKS-Unterstützung vorinstalliert oder vorkonfiguriert sind. Jedes DLAMI basiert auf Amazon Linux 2 (AL2) und unterstützt eine bestimmte Kubernetes-Version. Informationen zu HyperPod-DLAMI-Veröffentlichungen für die Amazon-EKS-Orchestrierung finden Sie unter AMI-Veröffentlichungen von SageMaker HyperPod für Slurm. Weitere Informationen zu Feature-Veröffentlichungen von Amazon SageMaker HyperPod finden Sie unter Versionshinweise zu Amazon SageMaker HyperPod.
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 25. August 2025
SageMaker HyperPod DLAMI für Amazon-EKS-Unterstützung
Diese Veröffentlichung umfasst folgende Updates:
- Kubernetes v1.28
-
NVIDIA SMI:
Hinzugefügte Pakete:
Aktualisierte Pakete:
gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2
kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12
microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25
pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4
Entfernte Pakete:
Geändertes Repository:
libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
- Kubernetes v1.29
-
NVIDIA SMI:
Hinzugefügte Pakete:
Aktualisierte Pakete:
gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2
kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12
microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25
pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4
Entfernte Pakete:
Geändertes Repository:
libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
- Kubernetes v1.30
-
NVIDIA SMI:
Hinzugefügte Pakete:
Aktualisierte Pakete:
aws-neuronx-dkms.noarch: 2.22.2.0-dkms → 2.23.9.0-dkms
efa.x86_64: 2.15.3-1.amzn2 → 2.17.2-1.amzn2
efa-nv-peermem.x86_64: 1.2.1-1.amzn2 → 1.2.2-1.amzn2
gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2
ibacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
infiniband-diags.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
libfabric-aws.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2
libfabric-aws-devel.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2
libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12
libibumad.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libnccl-ofi.x86_64: 1.15.0-1.amzn2 → 1.16.2-1.amzn2
librdmacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
librdmacm-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25
pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4
rdma-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
rdma-core-devel.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
Entfernte Pakete:
Geändertes Repository:
libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
- Kubernetes v1.31
-
NVIDIA SMI:
Hinzugefügte Pakete:
Aktualisierte Pakete:
gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2
kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12
microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25
pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4
Entfernte Pakete:
Geändertes Repository:
libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
- Kubernetes v1.32
-
NVIDIA SMI:
Hinzugefügte Pakete:
Aktualisierte Pakete:
aws-neuronx-dkms.noarch: 2.22.2.0-dkms → 2.23.9.0-dkms
efa.x86_64: 2.15.3-1.amzn2 → 2.17.2-1.amzn2
efa-nv-peermem.x86_64: 1.2.1-1.amzn2 → 1.2.2-1.amzn2
gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2
ibacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
infiniband-diags.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
libfabric-aws.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2
libfabric-aws-devel.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2
libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12
libibumad.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libnccl-ofi.x86_64: 1.15.0-1.amzn2 → 1.16.2-1.amzn2
librdmacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
librdmacm-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25
pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4
rdma-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
rdma-core-devel.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
Entfernte Pakete:
Geändertes Repository:
libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 6. August 2025
SageMaker HyperPod DLAMI für Amazon-EKS-Unterstützung
Die AMIs enthalten die folgenden Aktualisierungen:
- K8s v1.28
-
-
Neuron-Pakete:
-
aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1
-
aws-neuronx-dkms: 2.23.9.0-dkms
-
aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1
-
aws-neuronx-k8-plugin: 2.27.7.0-1
-
aws-neuronx-k8-scheduler: 2.27.7.0-1
-
aws-neuronx-tools: 2.25.145.0-1
- K8s v1.29
-
-
Neuron-Pakete:
-
aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1
-
aws-neuronx-dkms: 2.23.9.0-dkms
-
aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1
-
aws-neuronx-k8-plugin: 2.27.7.0-1
-
aws-neuronx-k8-scheduler: 2.27.7.0-1
-
aws-neuronx-tools: 2.25.145.0-1
- K8s v1.30
-
-
Neuron-Pakete:
-
aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1
-
aws-neuronx-dkms: 2.23.9.0-dkms
-
aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1
-
aws-neuronx-k8-plugin: 2.27.7.0-1
-
aws-neuronx-k8-scheduler: 2.27.7.0-1
-
aws-neuronx-tools: 2.25.145.0-1
- K8s v1.31
-
-
Neuron-Pakete:
-
aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1
-
aws-neuronx-dkms: 2.23.9.0-dkms
-
aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1
-
aws-neuronx-k8-plugin: 2.27.7.0-1
-
aws-neuronx-k8-scheduler: 2.27.7.0-1
-
aws-neuronx-tools: 2.25.145.0-1
- K8s v1.32
-
-
Neuron-Pakete:
-
aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1
-
aws-neuronx-dkms: 2.23.9.0-dkms
-
aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1
-
aws-neuronx-k8-plugin: 2.27.7.0-1
-
aws-neuronx-k8-scheduler: 2.27.7.0-1
-
aws-neuronx-tools: 2.25.145.0-1
-
Deep Learning Base OSS Nvidia-Treiber AMI (Amazon Linux 2) Version 70.3
-
Deep-Learning-Base-proprietäres Nvidia-Treiber-AMI (Amazon Linux 2) -AMI 6.8.4
-
Neueste Unterstützung für CUDA 12.8
-
Der Nvidia-Treiber wurde von 570.158.01 auf 570.172.08 aktualisiert, um die im Nvidia-Sicherheitsbulletin für Juli enthaltenen CVE-Probleme zu beheben
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 31. Juli 2025
Amazon SageMaker HyperPod unterstützt jetzt ein neues AMI für Amazon EKS-Cluster, das das Basisbetriebssystem auf Amazon Linux 2023 aktualisiert. Diese Version bietet mehrere Verbesserungen gegenüber Amazon Linux 2 (AL2). HyperPod veröffentlicht regelmäßig neue AMIs. Wir empfehlen, dass Sie alle Ihre HyperPod-Cluster auf den neuesten und sichersten Versionen von AMIs ausführen, um Sicherheitslücken zu schließen und veraltete Software und Bibliotheken auslaufen zu lassen.
Wichtige Upgrades
-
Betriebssystem: Amazon Linux 2023 (aktualisiert von Amazon Linux 2 oder AL2)
-
Package Manager: DNF ist das Standard-Paketverwaltungstool und ersetzt das in AL2 verwendete YUM
-
Netzwerkdienst: systemd-networkd verwaltet Netzwerkschnittstellen und ersetzt dhclient ISC, das in AL2 verwendet wird
-
Linux-Kernel: Version 6.1, aktualisiert gegenüber dem in AL2 verwendeten Kernel
-
Glibc: Version 2.34, aktualisiert von der Version in AL2
-
GCC: Version 11.5.0, aktualisiert von der Version in AL2
-
NFS: Version 1:2.6 .1, aktualisiert von Version 1:1.3 .4 in AL2
-
NVIDIA-Treiber: Version 570.172.08, eine neuere Treiberversion
-
Python: Version 3.9, ersetzt Python 2.7, das in AL2 verwendet wurde
-
NVME: Version 1.11.1, eine neuere Version des NVMe-Treibers
Vor dem Upgrade
Vor dem Upgrade sollten Sie einige wichtige Dinge wissen. Mit AL2023 wurden im Vergleich zu AL2 mehrere Pakete hinzugefügt, aktualisiert oder entfernt. Wir empfehlen dringend, dass Sie Ihre Anwendungen mit AL2023 testen, bevor Sie Ihre Cluster aktualisieren. Eine umfassende Liste aller Paketänderungen in AL2023 finden Sie unter Paketänderungen in Amazon Linux 2023.
Im Folgenden sind einige der wesentlichen Änderungen zwischen AL2 und AL2023 aufgeführt:
-
Python 3.10: Das wichtigste Update neben dem Betriebssystem ist das Python-Versionsupgrade. Nach dem Upgrade haben Cluster standardmäßig Python 3.10. Obwohl einige verteilte Python-3.8-Training-Workloads möglicherweise mit Python 3.10 kompatibel sind, empfehlen wir dringend, dass Sie Ihre spezifischen Workloads separat testen. Wenn sich die Migration zu Python 3.10 als schwierig erweist, Sie Ihren Cluster dennoch für andere neue Funktionen aktualisieren möchten, können Sie eine ältere Python-Version installieren, indem Sie den Befehl yum install python-xx.x mit Lebenszyklusskripten verwenden, bevor Sie Workloads ausführen. Stellen Sie sicher, dass Sie sowohl Ihre vorhandenen Lebenszyklus-Skripts als auch Ihren Anwendungscode auf Kompatibilität testen.
-
Durchsetzung der NVIDIA-Laufzeit: AL2023 setzt die Laufzeitanforderungen für NVIDIA-Container strikt durch, was dazu führt, dass Container mit hartcodierten NVIDIA-Umgebungsvariablen (wieNVIDIA_VISIBLE_DEVICES: "all") auf reinen CPU-Knoten fehlschlagen (wohingegen AL2 diese Einstellungen ignorierte, wenn keine GPU-Treiber vorhanden sind). Sie können die Durchsetzung außer Kraft setzen, indem Sie sie NVIDIA_VISIBLE_DEVICES: "void" in Ihrer Pod-Spezifikation festlegen oder indem Sie reine CPU-Images verwenden.
-
cgroup v2: AL2023 bietet die nächste Generation der vereinheitlichten Kontrollgruppenhierarchie (cgroup v2). cgroup v2 wird für Container-Laufzeiten verwendet und wird auch von verwendet. systemd AL2023 enthält zwar weiterhin Code, der das System mit cgroup v1 ausführt, jedoch ist dies keine empfohlene Konfiguration.
-
Amazon VPC CNI und eksctl Versionen: AL2023 erfordert außerdem, dass Ihre Amazon VPC CNI-Version 1.16.2 oder höher und Ihre eksctl Version 0.176.0 oder höher ist.
-
EFA on FSx for Lustre: Sie können EFA jetzt auf FSx for Lustre verwenden, wodurch Sie eine Anwendungsleistung erzielen können, die mit lokalen KI/ML- oder HPC-Clustern (High Performance Computing) vergleichbar ist, und gleichzeitig von der Skalierbarkeit, Flexibilität und Elastizität von Cloud Computing profitieren.
Darüber hinaus erfordert ein Upgrade auf AL2023 eine Mindestversion 1.0.643.0_1.0.192.0 von Health Monitoring Agent. Führen Sie das folgende Verfahren durch, um den Health Monitoring Agent zu aktualisieren:
-
Wenn du HyperPod-Lebenszyklusskripte aus dem GitHub-Repository awsome-distributed-training verwendest, stelle sicher, dass du die neueste Version herunterlädst. Frühere Versionen sind nicht mit AL2023 kompatibel. Das neue Lifecycle-Skript stellt sicher, dass der zusätzliche gemountete Speicher zum Abrufen von Container-Images in AL2023 containerd verwendet wird.
-
Rufen Sie die neueste Version des HyperPod CLI-Git-Repositorys auf.
-
Aktualisieren Sie Abhängigkeiten mit dem folgenden Befehl: helm dependencies update helm_chart/HyperPodHelmChart
-
Wie in Schritt 4 in der README-Datei von HyperPodHelmChart erwähnt, führen Sie den folgenden Befehl aus, um die Version der Abhängigkeiten zu aktualisieren, die auf dem Cluster ausgeführt werden: helm upgrade dependencies helm_chart/HyperPodHelmChart -namespace kube-system
Workloads, die auf aktualisierten EKS-Clustern getestet wurden
Im Folgenden sind einige Anwendungsfälle aufgeführt, in denen das Upgrade getestet wurde:
Abwärtskompatibilität: Beliebte verteilte Trainingsjobs mit PyTorch sollten auf dem neuen AMI abwärtskompatibel sein. Da Ihre Workloads jedoch von bestimmten Python- oder Linux-Bibliotheken abhängen können, empfehlen wir, zuerst in einem kleineren Maßstab oder einer Teilmenge von Knoten zu testen, bevor Sie Ihre größeren Cluster aktualisieren.
Accelerator-Tests: Jobs für verschiedene Instance-Typen, bei denen sowohl NVIDIA-Beschleuniger (für die P- und G-Instance-Familien) als auch AWS Neuron-Beschleuniger (für Trn-Instances) verwendet wurden, wurden getestet.
So aktualisieren Sie Ihr AMI und die zugehörigen Workloads
Sie können mithilfe einer der folgenden Methoden ein Upgrade auf das neue AMI durchführen:
-
Verwenden Sie die Create-Cluster-API, um einen neuen Cluster mit dem neuesten AMI zu erstellen.
-
Verwenden Sie die Update-Cluster-Software-API, um Ihren vorhandenen Cluster zu aktualisieren. Beachten Sie, dass diese Option alle Lebenszyklusskripts erneut ausführt.
Während des Aktualisierungsvorgangs ist der Cluster nicht verfügbar. Wir empfehlen, diese Ausfallzeit einzuplanen und die Trainingslast nach Abschluss des Upgrades von einem vorhandenen Checkpoint aus neu zu starten. Als bewährte Methode empfehlen wir Ihnen, Tests an einem kleineren Cluster durchzuführen, bevor Sie Ihre größeren Cluster aktualisieren.
Wenn der Befehl zum Aktualisieren fehlschlägt, identifizieren Sie zunächst die Fehlerursache. Nehmen Sie bei Fehlern im Lebenszyklus-Skript die erforderlichen Korrekturen an Ihren Skripts vor und versuchen Sie es erneut. Bei allen anderen Problemen, die nicht gelöst werden können, wenden Sie sich an AWS Support.
Fehlerbehebung
Verwenden Sie den folgenden Abschnitt, um Probleme zu beheben, die beim Upgrade auf AL2023 auftreten.
Wie behebe ich Fehler, z. B. "nvml error: driver
not loaded: unknown" auf Clusterknoten, die nur mit CPUs arbeiten?
Wenn Container, die auf CPU-AL2-Amazon-EKS-Knoten funktionierten, jetzt auf AL2023 ausfallen, enthält Ihr Container-Image möglicherweise hartcodierte NVIDIA-Umgebungsvariablen. Sie können mit dem folgenden Befehl nach fest codierten Umgebungsvariablen suchen:
docker inspect image:tag | grep -i nvidia
AL2023 setzt diese Anforderungen strikt durch, während AL2 bei reinen CPU-Knoten nachsichtiger war. Eine Lösung besteht darin, die AL203-Erzwingung zu überschreiben, indem Sie bestimmte NVIDIA-Umgebungsvariablen in Ihrer Amazon EKS-Pod-Spezifikation festlegen, wie im folgenden Beispiel gezeigt:
yaml
containers:
- name: your-container
image: your-image:tag
env:
- name: NVIDIA_VISIBLE_DEVICES
value: "void"
- name: NVIDIA_DRIVER_CAPABILITIES
value: ""
Eine weitere Alternative besteht darin, Container-Images (wiepytorch/pytorch:latest-cpu) nur für die CPU zu verwenden oder benutzerdefinierte Images ohne NVIDIA-Abhängigkeiten zu erstellen.
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 15. Juli 2025
SageMaker HyperPod DLAMI für Amazon-EKS-Unterstützung
Die AMIs enthalten die folgenden Aktualisierungen:
- K8s v1.28
-
- K8s v1.29
-
- K8s v1.30
-
- K8s v1.31
-
- K8s v1.32
-
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 9. Juni 2025
SageMaker HyperPod DLAMI für Amazon-EKS-Unterstützung
- Neuron SDK Updates
-
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 22. Mai 2025
Allgemeine AMI-Updates
SageMaker HyperPod DLAMI für Amazon-EKS-Unterstützung
- Deep Learning Base AMI AL2
-
- Neuron SDK Updates
-
-
aws-neuronx-dkms.noarch: 2.20.74.0 (ab 2.20.28.0)
-
aws-neuronx-collectives.x86_64: 2.25.65.0_9858ac9a1-1 (ab 2.24.59.0_838c7fc8b-1)
-
aws-neuronx-runtime-lib.x86_64: 2.25.57.0_166c7a468-1 (ab 2.24.53.0_f239092cc-1)
-
aws-neuronx-tools.x86_64: 2.23.9.0 (ab 2.22.61.0)
-
aws-neuronx-gpsimd-customop-lib.x86_64: 0.15.12.0 (ab 0.14.12.0)
-
aws-neuronx-gpsimd-tools.x86_64: 0.15.1.0_5d31b6a3f (ab 0.14.6.0_241eb69f4)
-
aws-neuronx-k8-plugin.x86_64: 2.25.24.0 (ab 2.24.23.0)
-
aws-neuronx-k8-scheduler.x86_64: 2.25.24.0 (ab 2.24.23.0)
Hinweise zu Support:
-
AMI-Komponenten, einschließlich CUDA-Versionen, können basierend auf der Framework-Supportrichtlinie entfernt oder geändert werden
-
Die Kernel-Version ist aus Kompatibilitätsgründen festgelegt. Benutzer sollten Updates vermeiden, sofern sie nicht für Sicherheitspatches erforderlich sind
-
Für EC2-Instances mit mehreren Netzwerkkarten finden Sie Informationen zur korrekten Einrichtung im EFA-Konfigurationsleitfaden
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 07. Mai 2025
- Installed the latest version of AWS Neuron SDK
-
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 28. April 2025
Verbesserungen für K8s
-
Der NVIDIA-Treiber wurde von Version 550.144.03 auf 550.163.01 aktualisiert. Dieses Upgrade dient der Behebung von allgemeinen Sicherheitslücken und Schwachstellen (Common Vulnerabilities and Exposures, CVEs), die im NVIDIA GPU Display Security Bulletin für April 2025 aufgeführt sind.
SageMaker HyperPod DLAMI für Amazon-EKS-Unterstützung
- Installed the latest version of AWS Neuron SDK
-
-
aws-neuronx-dkms.noarch: 2.20.28.0-dkms
-
aws-neuronx-oci-hook.x86_64: 2.4.4.0-1
-
aws-neuronx-tools.x86_64: 2.18.3.0-1
-
aws-neuron-dkms.noarch: 2.3.26.0-dkms
-
aws-neuron-k8-plugin.x86_64: 1.9.3.0-1
-
aws-neuron-k8-scheduler.x86_64: 1.9.3.0-1
-
aws-neuron-runtime.x86_64: 1.6.24.0-1
-
aws-neuron-runtime-base.x86_64: 1.6.21.0-1
-
aws-neuron-tools.x86_64: 2.1.4.0-1
-
aws-neuronx-collectives.x86_64: 2.24.59.0_838c7fc8b-1
-
aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1
-
aws-neuronx-gpsimd-customop-lib.x86_64: 0.14.12.0-1
-
aws-neuronx-gpsimd-tools.x86_64: 0.14.6.0_241eb69f4-1
-
aws-neuronx-k8-plugin.x86_64: 2.24.23.0-1
-
aws-neuronx-k8-scheduler.x86_64: 2.24.23.0-1
-
aws-neuronx-runtime-lib.x86_64: 2.24.53.0_f239092cc-1
-
aws-neuronx-tools.x86_64: 2.22.61.0-1
-
tensorflow-model-server-neuronx.x86_64: 2.10.1.2.12.2.0-0
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 18. April 2025
Allgemeine AMI-Updates
SageMaker HyperPod DLAMI für Amazon-EKS-Unterstützung
Die AMIs umfassen Folgendes:
- Deep Learning EKS AMI 1.32.1
-
-
Amazon-EKS-Komponenten
-
Kubernetes-Version: 1.32.1
-
Containerd-Version: 1.7.27
-
Runc-Version: 1.1.14
-
AWS-IAM-Authentifikator: 0.6.29
-
Amazon SSM Agent: 3.3.1611.0
-
Linux-Kernel: 5.10.235
-
OSS-Nvidia-Treiber: 550.163.01
-
NVIDIA CUDA: 12.4
-
EFA-Installationsprogramm: 1.38.0
-
GDRCopy: 2.4.1-1
-
Nvidia-Container-Toolkit: 1.17.6
-
AWS OFI NCCL: 1.13.2
-
aws-neuronx-tools: 2.18.3.0
-
aws-neuronx-runtime-lib: 2.24.53.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.20.28.0
-
aws-neuronx-collectives: 2.24.59.0
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 18. Februar 2025
Verbesserungen für K8s
-
Das Nvidia-Container-Toolkit wurde von Version 1.17.3 auf Version 1.17.4 aktualisiert.
-
Das Problem, dass Kunden nach einem Neustart keine Verbindung zu Knoten herstellen konnten, wurde behoben.
-
Die Version des Elastic Fabric Adapter (EFA) wurde von 1.37.0 auf 1.38.0 aktualisiert.
-
Die EFA enthält jetzt das OFI-NCCL-Plugin von AWS, das sich im Verzeichnis /opt/amazon/ofi-nccl statt im ursprünglichen /opt/aws-ofi-nccl/-Pfad befindet. Sollten Sie Ihre Umgebungsvariable LD_LIBRARY_PATH aktualisieren müssen, stellen Sie sicher, dass Sie den Pfad so ändern, dass er auf den neuen /opt/amazon/ofi-nccl-Speicherort des OFI-NCCL-Plugins verweist.
-
Das Emacs-Paket wurde aus diesen DLAMIs entfernt. Sie können Emacs von GNU Emac aus installieren.
SageMaker HyperPod DLAMI für Amazon-EKS-Unterstützung
- Installed the latest version of neuron SDK
-
-
aws-neuronx-dkms.noarch: 2.19.64.0-dkms @neuron
-
aws-neuronx-oci-hook.x86_64: 2.4.4.0-1 @neuron
-
aws-neuronx-tools.x86_64: 2.18.3.0-1 @neuron
-
aws-neuronx-collectives.x86_64: 2.23.135.0_3e70920f2-1 neuron
-
aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1 neuron
-
aws-neuronx-gpsimd-customop-lib.x86_64
-
aws-neuronx-gpsimd-tools.x86_64: 0.13.2.0_94ba34927-1 neuron
-
aws-neuronx-k8-plugin.x86_64: 2.23.45.0-1 neuron
-
aws-neuronx-k8-scheduler.x86_64: 2.23.45.0-1 neuron
-
aws-neuronx-runtime-lib.x86_64: 2.23.112.0_9b5179492-1 neuron
-
aws-neuronx-tools.x86_64: 2.20.204.0-1 neuron
-
tensorflow-model-server-neuronx.x86_64
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 22. Januar 2025
Allgemeine AMI-Updates
SageMaker HyperPod DLAMI für Amazon-EKS-Unterstützung
Die AMIs umfassen Folgendes:
- Deep Learning EKS AMI 1.31
-
-
Amazon-EKS-Komponenten
-
Kubernetes-Version: 1.31.2
-
Containerd-Version: 1.7.23
-
Runc-Version: 1.1.14
-
AWS-IAM-Authentifikator: 0.6.26
-
Amazon SSM Agent: 3.3.987
-
Linux-Kernel: 5.10.230
-
OSS-Nvidia-Treiber: 550.127.05
-
NVIDIA CUDA: 12.4
-
EFA-Installationsprogramm: 1.37.0
-
GDRCopy: 2.4.1-1
-
Nvidia-Container-Toolkit: 1.17.3
-
AWS OFI NCCL: 1.13.0
-
aws-neuronx-tools: 2.18.3
-
aws-neuronx-runtime-lib: 2.23.112.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.23.133.0
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 21. Dezember 2024
SageMaker HyperPod DLAMI für Amazon-EKS-Unterstützung
Die AMIs umfassen Folgendes:
- K8s v1.28
-
-
Amazon-EKS-Komponenten
-
Kubernetes-Version: 1.28.15
-
Containerd-Version: 1.7.23
-
Runc-Version: 1.1.14
-
AWS-IAM-Authentifikator: 0.6.26
-
Amazon SSM Agent: 3.3.987
-
Linux-Kernel: 5.10.228
-
OSS-NVIDIA-Treiber: 550.127.05
-
NVIDIA CUDA: 12.4
-
EFA-Installationsprogramm: 1.37.0
-
GDRCopy:: 2.4
-
NVIDIA-Container-Toolkit: 1.17.3
-
AWS OFI NCCL: 1.13.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.23.112.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.23.135.0
- K8s v1.29
-
-
Amazon-EKS-Komponenten
-
Kubernetes-Version: 1.29.10
-
Containerd-Version: 1.7.23
-
Runc-Version: 1.1.14
-
AWS-IAM-Authentifikator: 0.6.26
-
Amazon SSM Agent: 3.3.987
-
Linux-Kernel: 5.15.0
-
OSS-Nvidia-Treiber: 550.127.05
-
NVIDIA CUDA: 12.4
-
EFA-Installationsprogramm: 1.37.0
-
GDRCopy:: 2.4
-
Nvidia-Container-Toolkit: 1.17.3
-
AWS OFI NCCL: 1.13.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.23.112.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.23.135.0
- K8s v1.30
-
-
Amazon-EKS-Komponenten
-
Kubernetes-Version: 1.30.6
-
Containerd-Version: 1.7.23
-
Runc-Version: 1.1.14
-
AWS-IAM-Authentifikator: 0.6.26
-
Amazon SSM Agent: 3.3.987.0
-
Linux-Kernel: 5.10.228
-
OSS-Nvidia-Treiber: 550.127.05
-
NVIDIA CUDA: 12.4
-
EFA-Installationsprogramm: 1.37.0
-
GDRCopy:: 2.4
-
Nvidia-Container-Toolkit: 1.17.3
-
AWS OFI NCCL: 1.13.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.23.112.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.23.135.0
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 13. Dezember 2024
SageMaker HyperPod DLAMI für Amazon-EKS-Upgrade
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 24. November 2024
Allgemeine AMI-Updates
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 15. November 2024
SageMaker HyperPod DLAMI für Amazon-EKS-Unterstützung
Die AMIs umfassen Folgendes:
- Deep Learning EKS AMI 1.28
-
-
Amazon-EKS-Komponenten
-
Kubernetes-Version: 1.28.15
-
Containerd-Version: 1.7.23
-
Runc-Version: 1.1.14
-
AWS-IAM-Authentifikator: 0.6.26
-
Amazon SSM Agent: 3.3.987
-
Linux-Kernel: 5.10.228
-
OSS-NVIDIA-Treiber: 550.127.05
-
NVIDIA CUDA: 12.4
-
EFA-Installationsprogramm: 1.34.0
-
GDRCopy:: 2.4
-
NVIDIA-Container-Toolkit: 1.17.3
-
AWS OFI NCCL: 1.11.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.22.19.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.22.33.0
- Deep Learning EKS AMI 1.29
-
-
Amazon-EKS-Komponenten
-
Kubernetes-Version: 1.29.10
-
Containerd-Version: 1.7.23
-
Runc-Version: 1.1.14
-
AWS-IAM-Authentifikator: 0.6.26
-
Amazon SSM Agent: 3.3.987
-
Linux-Kernel: 5.10.228
-
OSS-Nvidia-Treiber: 550.127.05
-
NVIDIA CUDA: 12.4
-
EFA-Installationsprogramm: 1.34.0
-
GDRCopy:: 2.4
-
Nvidia-Container-Toolkit: 1.17.3
-
AWS OFI NCCL: 1.11.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.22.19.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.22.33.0
- Deep Learning EKS AMI 1.30
-
-
Amazon-EKS-Komponenten
-
Kubernetes-Version: 1.30.6
-
Containerd-Version: 1.7.23
-
Runc-Version: 1.1.14
-
AWS-IAM-Authentifikator: 0.6.26
-
Amazon SSM Agent: 3.3.987
-
Linux-Kernel: 5.10.228
-
OSS-Nvidia-Treiber: 550.127.05
-
NVIDIA CUDA: 12.4
-
EFA-Installationsprogramm: 1.34.0
-
GDRCopy:: 2.4
-
Nvidia-Container-Toolkit: 1.17.3
-
AWS OFI NCCL: 1.11.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.22.19.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.22.33.0
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 11. November 2024
Allgemeine AMI-Updates
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 21. Oktober 2024
Allgemeine AMI-Updates
AMI-Veröffentlichungen von SageMaker HyperPod für Amazon EKS: 10. September 2024
SageMaker HyperPod DLAMI für Amazon-EKS-Unterstützung
Die AMIs umfassen Folgendes:
-
-
Amazon-EKS-Komponenten
-
Kubernetes-Version: 1.28.11
-
Containerd-Version: 1.7.20
-
Runc-Version: 1.1.11
-
AWS-IAM-Authentifikator: 0.6.21
-
Amazon SSM Agent: 3.3.380
-
Linux-Kernel: 5.10.223
-
OSS-NVIDIA-Treiber: 535.183.01
-
NVIDIA CUDA: 12.2
-
EFA-Installationsprogramm: 1.32.0
-
GDRCopy:: 2.4
-
NVIDIA-Container-Toolkit: 1.16.1
-
AWS OFI NCCL: 1.9.1
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.21.41.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.17.17.0
-
aws-neuronx-collectives: 2.21.46.0
- Deep Learning EKS AMI 1.29
-
-
Amazon-EKS-Komponenten
-
Kubernetes-Version: 1.29.6
-
Containerd-Version: 1.7.20
-
Runc-Version: 1.1.11
-
AWS-IAM-Authentifikator: 0.6.21
-
Amazon SSM Agent: 3.3.380
-
Linux-Kernel: 5.10.223
-
OSS-Nvidia-Treiber: 535.183.01
-
NVIDIA CUDA: 12.2
-
EFA-Installationsprogramm: 1.32.0
-
GDRCopy:: 2.4
-
Nvidia-Container-Toolkit: 1.16.1
-
AWS OFI NCCL: 1.9.1
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.21.41.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.17.17.0
-
aws-neuronx-collectives: 2.21.46.0
- Deep Learning EKS AMI 1.30
-
-
Amazon-EKS-Komponenten
-
Kubernetes-Version: 1.30.2
-
Containerd-Version: 1.7.20
-
Runc-Version: 1.1.11
-
AWS-IAM-Authentifikator: 0.6.21
-
Amazon SSM Agent: 3.3.380
-
Linux-Kernel: 5.10.223
-
OSS-Nvidia-Treiber: 535.183.01
-
NVIDIA CUDA: 12.2
-
EFA-Installationsprogramm: 1.32.0
-
GDRCopy:: 2.4
-
Nvidia-Container-Toolkit: 1.16.1
-
AWS OFI NCCL: 1.9.1
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.21.41.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.17.17.0
-
aws-neuronx-collectives: 2.21.46.0