Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
SageMaker HyperPod AMI-Veröffentlichungen für Slurm
In den folgenden Versionshinweisen werden die neuesten Updates für Amazon SageMaker HyperPod AMI-Versionen für Slurm-Orchestration beschrieben. Diese HyperPod AMIs basieren auf dem AWSDeep Learning Base GPU AMI (Ubuntu 22.04).
Anmerkung
Informationen zum Aktualisieren vorhandener HyperPod Cluster mit dem neuesten DLAMI finden Sie unter. Aktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 22. November 2025
Allgemeine AMI-Updates
-
Veröffentlichte Updates für SageMaker HyperPod AMI für Slurm-Versionen 24.11.
SageMaker HyperPod DLAMI für Slurm-Unterstützung
Diese Veröffentlichung umfasst folgende Updates:
SageMaker HyperPod Versionshinweise: 07. November 2025
Das AMI umfasst Folgendes:
-
UnterstütztAWS-Service: Amazon EC2
-
Betriebssystem: Ubuntu 22.04
-
Rechenarchitektur: ARM64
-
Aktualisierte Pakete: NVIDIA-Treiber: 580.95.05
-
CUDA-Versionen: cuda-12.6, cuda-12.8, cuda-12.9, cuda-13.0
SageMaker HyperPod Versionshinweise: 29. September 2025
Das AMI umfasst Folgendes:
-
UnterstütztAWS-Service: Amazon EC2
-
Betriebssystem: Ubuntu 22.04
-
Rechenarchitektur: ARM64
-
Aktualisierte Pakete: NVIDIA-Treiber: 570.172.08
-
Fehlerbehebungen bei der Sicherheit
SageMaker HyperPod Versionshinweise: 12. August 2025
Das AMI umfasst Folgendes:
-
UnterstütztAWS-Service: Amazon EC2
-
Betriebssystem: Ubuntu 22.04
-
Rechenarchitektur: ARM64
-
Die neueste verfügbare Version ist für die folgenden Pakete installiert:
-
Linux-Kernel: 6.8
-
FSx Glanz
-
Docker
-
AWS CLIv2 bei
/usr/bin/aws -
NVIDIA DCGM
-
Nvidia-Container-Toolkit:
-
Befehl Version:
nvidia-container-cli -V
-
-
NVIDIA-Docker2:
-
Befehl Version:
nvidia-docker version
-
-
NVIDIA-IMEX: v570.172.08-1
-
-
NVIDIA-Treiber: 570.158.01
-
NVIDIA CUDA 12.4, 12.5, 12.6, 12.8 Stapel:
-
Installationsverzeichnisse CUDA, NCCL und cuDDN:
/usr/local/cuda-xx.x/-
Beispiel:
/usr/local/cuda-12.8/,/usr/local/cuda-12.8/
-
-
Kompilierte NCCL-Version:
-
Für das CUDA-Verzeichnis von 12.4, kompilierte NCCL-Version 2.22.3+ .4 CUDA12
-
Für das CUDA-Verzeichnis 12.5, kompilierte NCCL-Version 2.22.3+ .5 CUDA12
-
Für das CUDA-Verzeichnis von 12.6, kompilierte NCCL-Version 2.24.3+ .6 CUDA12
-
Für das CUDA-Verzeichnis von 12.8, kompilierte NCCL-Version 2.27.5+. CUDA12
-
-
Standard-CUDA: 12.8
-
PATH
/usr/local/cudazeigt auf CUDA 12.8 -
Die folgenden Umgebungsvariablen wurden aktualisiert:
-
LD_LIBRARY_PATHzu haben/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64 -
PATHzu haben/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/ -
Für jede andere CUDA-Version aktualisieren Sie bitte
LD_LIBRARY_PATHentsprechend.
-
-
-
-
EFA-Installationsprogramm: 1.42.0
-
Nvidia GDRCopy: 2.5.1
-
AWSDas OFI NCCL-Plugin wird mit dem EFA-Installationsprogramm geliefert
-
Pfade
/opt/amazon/ofi-nccl/lib/aarch64-linux-gnuund/opt/amazon/ofi-nccl/efawerden hinzugefügt.LD_LIBRARY_PATH
-
-
AWS CLIv2 bei
/usr/local/bin/aws2und AWS CLI v1 bei/usr/bin/aws -
EBS-Volumetyp: gp3
-
Python:
/usr/bin/python3.10
SageMaker HyperPod Versionshinweise: 27. Mai 2025
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neue Features und Verbesserungen
-
Das Basis-AMI wurde mit den folgenden Schlüsselkomponenten auf
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523aktualisiert:-
NVIDIA-Treiber: 570.133.20
-
CUDA: 12.8 (Standard), mit Unterstützung für CUDA 12.4–12.6
-
NCCL-Version: 2.26.5
-
EFA-Installationsprogramm: 1.40.0
-
AWSOFI NCCL: 1.14.2-aws
-
-
Aktualisierte Neuron-SDK-Pakete:
-
aws-neuronx-collectives: 2.25.65.0-9858ac9a1 (von 2.24.59.0-838c7fc8b)
-
aws-neuronx-dkms: 2,21,37,0 (von 2,20.28,0)
-
aws-neuronx-runtime-lib: 2.25.57.0-166c7a468 (von 2.24.53.0-f239092cc)
-
aws-neuronx-tools: 2,23,9,0 (von 2.22.61,0)
-
Wichtige Hinweise
-
Das NVIDIA Container Toolkit 1.17.4 hat nun das Mounten von CUDA-kompatiblen Bibliotheken deaktiviert.
-
Die EFA-Konfiguration wurde von 1.37 auf 1.38 aktualisiert. EFA enthält nun das Plugin AWS OFI NCCL, das sich im
/opt/amazon/ofi-nccl-Verzeichnis anstelle des ursprünglichen Pfads befindet. (Veröffentlicht am 18. Februar 2025) -
Die Kernel-Version ist aus Gründen der Stabilität und Treiberkompatibilität fixiert.
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 13. Mai 2025
Amazon SageMaker HyperPod hat ein aktualisiertes AMI veröffentlicht, das Ubuntu 22.04 LTS für Slurm-Cluster unterstützt. AWSwird regelmäßig aktualisiert AMIs , um sicherzustellen, dass Sie Zugriff auf den aktuellsten Software-Stack haben. Durch das Upgrade auf das neueste AMI profitieren Sie von erhöhter Sicherheit durch umfassende Paketaktualisierungen, verbesserter Leistung und Stabilität für Ihre Workloads sowie Kompatibilität mit neuen Instance-Typen und den neuesten Kernel-Features.
Wichtig
Das Update von Ubuntu 20.04 LTS auf Ubuntu 22.04 LTS führt zu Änderungen, die sich auf die Kompatibilität mit Software und Konfigurationen auswirken können, die für Ubuntu 20.04 entwickelt wurden.
In diesem Versionshinweis finden Sie Folgendes:
Wichtige Aktualisierungen im Ubuntu 22.04 AMI
In der folgenden Tabelle werden die Komponentenversionen des Ubuntu 22.04 AMI im Vergleich zum vorherigen AMI aufgelistet.
| Komponente | Frühere Versionen | Aktualisierte Version |
|---|---|---|
|
Ubuntu-Betriebssystem |
20,04 LTS |
22.04 LTS |
|
Slurm |
24,11 |
24.11 (unverändert) |
|
Python |
3.8 (Standard) |
3.10 (Standard) |
|
Elastic Fabric Adapter (EFA) bei Amazon FSx |
Nicht unterstützt |
Unterstützt |
|
Linux-Kernel |
5.15 |
6.8 |
|
GNU C Library (glibc) |
2,31 |
2,35 |
|
GNU Compiler Collection (GCC) |
9,4,0 |
11,4,0 |
|
libc6 |
≤ 2.31 |
≥ 2.35 unterstützt |
|
Network File System (NFS) |
1:1.3.4 |
1:2.6.1 |
Anmerkung
Obwohl die Slurm-Version (24.11) unverändert bleibt, können die zugrunde liegenden Betriebssystem- und Bibliotheksaktualisierungen in diesem AMI Auswirkungen auf das Systemverhalten und die Workload-Kompatibilität haben. Sie müssen Ihre Workloads testen, bevor Sie Produktionscluster aktualisieren.
Upgrade auf das Ubuntu 22.04 AMI
Bevor Sie Ihren Cluster auf das Ubuntu 22.04 AMI aktualisieren, führen Sie die folgenden Vorbereitungsschritte durch und überprüfen Sie die Upgrade-Anforderungen. Informationen zur Behebung von Upgrade-Fehlern finden Sie unter Beheben von Upgrade-Fehlern.
Überprüfen der Python-Kompatibilität
Das Ubuntu 22.04 AMI verwendet Python 3.10 als Standardversion, ein Upgrade von Python 3.8. Obwohl Python 3.10 mit dem Großteil des Python-3.8-Codes kompatibel bleibt, empfehlen wir, Ihre bestehenden Workloads vor dem Upgrade zu testen. Sollten Ihre Workloads Python 3.8 erfordern, können Sie es mit dem folgenden Befehl in Ihrem Lebenszyklusskript installieren:
yum install python-3.8
Bevor Sie Ihr Cluster aktualisieren, stellen Sie sicher, dass Sie die folgenden Schritte ausführen:
-
Testen Sie Ihre Codekompatibilität mit Python 3.10.
-
Stellen Sie sicher, dass Ihre Lebenszyklusskripte in der neuen Umgebung funktionieren.
-
Überprüfen Sie, ob alle Abhängigkeiten mit der neuen Python-Version kompatibel sind.
-
Wenn Sie Ihren HyperPod Cluster erstellt haben, indem Sie das standardmäßige Lifecycle-Skript von kopiert haben GitHub, fügen Sie Ihrer
setup_mariadb_accounting.shDatei den folgenden Befehl hinzu, bevor Sie auf Ubuntu 22 aktualisieren. Das vollständige Skript finden Sie unter setup_mariadb_accounting.sh GitHub. apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
Aktualisieren Ihres Slurm-Clusters
Sie können Ihren Slurm-Cluster auf zwei Arten aktualisieren, um das neue AMI zu verwenden:
-
Erstellen Sie einen neuen Cluster mit der
CreateCluster-API. -
Aktualisieren Sie die Software eines vorhandenen Clusters mithilfe der
UpdateClusterSoftware-API.
Validierte Konfigurationen
AWShat eine Vielzahl verteilter Trainingsworkloads und Infrastrukturfunktionen auf G5-, G6-, G6e-, P4d-, P5- und Trn1-Instances getestet, darunter:
-
Verteilte Schulungen mit PyTorch (z. B. FSDP, MA, MNIST). NeMo LLa
-
Beschleunigertests für verschiedene Instance-Typen mit Nvidia (P/G-Serie) und AWS Neuron (Trn1).
-
Ausfallsicherheits-Features, darunter automatische Wiederaufnahme und umfassende Zustandsprüfungen.
Clusterausfallzeit und -verfügbarkeit
Der Cluster ist während des Upgrade-Vorgangs nicht verfügbar. Gehen Sie wie folgt vor, um Unterbrechungen zu minimieren:
-
Testen Sie den Upgrade-Prozess auf kleineren Clustern.
-
Erstellen Sie vor dem Upgrade Checkpoints und starten Sie die Trainingsworkloads nach Abschluss des Upgrades von den vorhandenen Checkpoints aus neu.
Beheben von Upgrade-Fehlern
Wenn ein Upgrade fehlschlägt, stellen Sie zunächst fest, ob der Fehler mit Lebenszyklusskripten zusammenhängt. Diese Skripte schlagen häufig aufgrund von Syntaxfehlern, fehlenden Abhängigkeiten oder falschen Konfigurationen fehl.
Um Fehler im Zusammenhang mit Lifecycle-Skripten zu untersuchen, überprüfen Sie die Protokolle. CloudWatch Alle SageMaker HyperPod Ereignisse und Protokolle werden in der Protokollgruppe gespeichert:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Schauen Sie sich speziell den Protokollstream LifecycleConfig/[instance-group-name]/[instance-id] an, der detaillierte Informationen über etwaige Fehler bei der Skriptausführung enthält.
Wenn der Upgrade-Fehler nichts mit Lebenszyklusskripten zu tun hat, sammeln Sie relevante Informationen, einschließlich Cluster-ARN, Fehlerprotokolle und Zeitstempel, und wenden Sie sich dann an den Support, um weitere AWS-Unterstützung
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 07. Mai 2025
Amazon SageMaker HyperPod for Slurm hat ein wichtiges Betriebssystem-Versions-Upgrade auf Ubuntu 22.04 (von dem früheren Ubuntu 20.04) veröffentlicht. Weitere Informationen finden Sie unter DLAMI Ubuntu 22.04 (VersionshinweiseDeep Learning Base OSS
Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503
Wichtige Paket-Upgrades:
-
Ubuntu 22.04 LTS (ab 20.04)
-
Python-Version:
-
Python 3.10 ist jetzt die Standard-Python-Version im Slurm-AMI Ubuntu 22.04
-
Dieses Upgrade bietet Zugriff auf die neuesten Features, Leistungsverbesserungen und Bugfixes, die in Python 3.10 eingeführt wurden
-
-
Support für EFA am FSx
-
Neue Linux-Kernel-Version 6.8 (aktualisiert von 5.15)
-
Glibc-Version: 2.35 (aktualisiert von 2.31)
-
GCC-Version: 11.4.0 (aktualisiert von 9.4.0)
-
Unterstützung neuerer libc6-Versionen (ab libc6-Version <= 2.31)
-
NFS-Version: 1:2.6 .1 (aktualisiert von 1:1.3.4)
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 28. April 2025
Verbesserungen für Slurm
-
Der NVIDIA-Treiber wurde von Version 550.144.03 auf 550.163.01 aktualisiert. Mit diesem Upgrade sollen häufig auftretende Sicherheitslücken und Sicherheitslücken (CVEs) behoben werden, die im NVIDIA GPU Display Security Bulletin
vom April 2025 enthalten sind.
Amazon SageMaker HyperPod DLAMI für Slurm-Unterstützung
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 18. Februar 2025
Verbesserungen für Slurm
-
Slurm-Version auf 24.11 aktualisiert.
-
Die Version des Elastic Fabric Adapter (EFA) wurde von 1.37.0 auf 1.38.0 aktualisiert.
-
Die EFA enthält jetzt das AWS OFI NCCL-Plugin. Sie finden dieses Plugin im
/opt/amazon/ofi-nccl-Verzeichnis und nicht am ursprünglichen Speicherort/opt/aws-ofi-nccl/. Sollten Sie Ihre UmgebungsvariableLD_LIBRARY_PATHaktualisieren müssen, stellen Sie sicher, dass Sie den Pfad so ändern, dass er auf den neuen/opt/amazon/ofi-nccl-Speicherort des OFI-NCCL-Plugins verweist. -
Das Emacs-Paket wurde von diesen entfernt. DLAMIs Sie können Emacs von GNU Emac aus installieren.
Amazon SageMaker HyperPod DLAMI für Slurm-Unterstützung
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 21. Dezember 2024
SageMaker HyperPod DLAMI für Slurm-Unterstützung
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 24. November 2024
Allgemeine AMI-Updates
-
Veröffentlicht in der Region
MEL(Melbourne). -
SageMaker HyperPod Basis-DLAMI wurde auf die folgenden Versionen aktualisiert:
-
Slurm: 22.11.2024
-
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 15. November 2024
Allgemeine AMI-Updates
-
Das neueste
libnvidia-nscq-xxx-Paket wurde installiert.
SageMaker HyperPod DLAMI für Slurm-Unterstützung
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 11. November 2024
Allgemeine AMI-Updates
-
SageMaker HyperPod Basis-DLAMI wurde auf die folgende Version aktualisiert:
-
Slurm: 23.10.2024
-
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 21. Oktober 2024
Allgemeine AMI-Updates
-
SageMaker HyperPod Basis-DLAMI wurde auf die folgenden Versionen aktualisiert:
-
Slurm: 27.09.2024
-
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 10. September 2024
SageMaker HyperPod DLAMI für Slurm-Unterstützung
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 14. März 2024
HyperPod Software-Patch für Slami für Slurm
-
Slurm
wurde auf v23.11.1 aktualisiert. -
Open PMIx
v4.2.6 zur Aktivierung von Slurm mit hinzugefügt. PMIx -
Basierend auf der AWS Deep Learning Base GPU AMI (Ubuntu 20.04)
, veröffentlicht am 26.10.2023 -
Eine vollständige Liste der vorinstallierten Pakete in diesem HyperPod DLAMI zusätzlich zum Basis-AMI
-
Slurm
: v23.11.1 -
Munge: v0.5.15
-
aws-neuronx-dkms: v2.* -
aws-neuronx-collectives: v2.* -
aws-neuronx-runtime-lib: v2.* -
aws-neuronx-tools: v2.* -
SageMaker HyperPod Softwarepakete zur Unterstützung von Funktionen wie Cluster-Integritätsprüfung und automatischer Wiederaufnahme
-
Schritte zum Upgrade
-
Führen Sie den folgenden Befehl aus, um die UpdateClusterSoftwareAPI aufzurufen und Ihre vorhandenen HyperPod Cluster mit dem neuesten HyperPod DLAMI zu aktualisieren. Weitere Anweisungen finden Sie unter Aktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.
Wichtig
Sichern Sie Ihre Arbeit, bevor Sie diese API ausführen. Der Patching-Prozess ersetzt das Root-Volume durch das aktualisierte AMI, was bedeutet, dass Ihre zuvor im Root-Volume der Instance gespeicherten Daten verloren gehen. Stellen Sie sicher, dass Sie Ihre Daten vom Instance-Root-Volume auf Amazon S3 oder Amazon FSx for Lustre sichern. Weitere Informationen finden Sie unter Verwenden Sie das Backup-Skript von SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-nameyour-cluster-nameAnmerkung
Beachten Sie, dass Sie den AWS CLI Befehl ausführen sollten, um Ihren HyperPod Cluster zu aktualisieren. Das Aktualisieren der HyperPod Software über die Benutzeroberfläche der SageMaker HyperPod Konsole ist derzeit nicht verfügbar.
SageMaker HyperPod AMI-Veröffentlichung für Slurm: 29. November 2023
HyperPod Software-Patch für Slami für Slurm
Das HyperPod Serviceteam verteilt Softwarepatches über. SageMaker HyperPod DLAMI Sehen Sie sich die folgenden Details zum neuesten HyperPod DLAMI an.
-
Basiert auf dem AWS-Deep-Learning-Base-GPU-AMI (Ubuntu 20.04), das am 18.10.2023
veröffentlicht wurde -
Eine vollständige Liste der vorinstallierten Pakete in diesem HyperPod DLAMI zusätzlich zum Basis-AMI
-
Munge: v0.5.15
-
aws-neuronx-dkms: v2.* -
aws-neuronx-collectives: v2.* -
aws-neuronx-runtime-lib: v2.* -
aws-neuronx-tools: v2.* -
SageMaker HyperPod Softwarepakete zur Unterstützung von Funktionen wie Cluster-Integritätsprüfung und automatischer Wiederaufnahme