Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
SageMaker HyperPod AMI-Veröffentlichungen für Slurm
In den folgenden Versionshinweisen werden die neuesten Updates für Amazon SageMaker HyperPod AMI-Versionen für Slurm-Orchestration beschrieben. Diese HyperPod AMIs basieren auf dem AWS Deep Learning Base GPU AMI (Ubuntu 22.04).
Anmerkung
Informationen zum Aktualisieren vorhandener HyperPod Cluster mit dem neuesten DLAMI finden Sie unter. Aktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 13. Mai 2025
Amazon SageMaker HyperPod hat ein aktualisiertes AMI veröffentlicht, das Ubuntu 22.04 LTS für Slurm-Cluster unterstützt. AWS wird regelmäßig aktualisiert AMIs , um sicherzustellen, dass Sie Zugriff auf den aktuellsten Software-Stack haben. Ein Upgrade auf das neueste AMI bietet mehr Sicherheit durch umfassende Paket-Updates, verbesserte Leistung und Stabilität für Ihre Workloads sowie Kompatibilität mit neuen Instance-Typen und neuesten Kernel-Funktionen.
Wichtig
Das Update von Ubuntu 20.04 LTS auf Ubuntu 22.04 LTS führt Änderungen ein, die sich auf die Kompatibilität mit Software und Konfigurationen auswirken könnten, die für Ubuntu 20.04 entwickelt wurden.
In diesem Versionshinweis werden Sie Folgendes sehen:
Wichtige Updates im Ubuntu 22.04 AMI
In der folgenden Tabelle sind die Komponentenversionen des Ubuntu 22.04 AMI im Vergleich zum vorherigen AMI aufgeführt.
Komponente | Frühere Version | Aktualisierte Version |
---|---|---|
Ubuntu-Betriebssystem |
20,04 LTS |
22.04 LTS |
Slurm |
24,11 |
24.11 (unverändert) |
Python |
3.8 (Standard) |
3.10 (Standard) |
Elastic Fabric Adapter (EFA) bei Amazon FSx |
Nicht unterstützt |
Unterstützt |
Linux-Kernel |
5.15 |
6.8 |
GNU-C-Bibliothek (Glibc) |
2.31 |
2,35 |
GNU-Compiler-Sammlung (GCC) |
9.4.0 |
11,4,0 |
libc6 |
≤ 2,31 |
≥ 2,35 wird unterstützt |
Netzwerk-Dateisystem (NFS) |
1:1,3 ,4 |
1:2,6 .1 |
Anmerkung
Obwohl die Slurm-Version (24.11) unverändert bleibt, können sich die zugrunde liegenden Betriebssystem- und Bibliotheksupdates in diesem AMI auf Ihr Systemverhalten und die Workload-Kompatibilität auswirken. Sie müssen Ihre Workloads testen, bevor Sie Produktionscluster aktualisieren.
Upgrade auf das Ubuntu 22.04 AMI
Bevor Sie Ihren Cluster auf das Ubuntu 22.04 AMI aktualisieren, führen Sie diese Vorbereitungsschritte durch und überprüfen Sie die Upgrade-Anforderungen. Informationen zur Behebung von Upgrade-Fehlern finden Sie unterBehebung von Upgrade-Fehlern.
Überprüfen Sie die Python-Kompatibilität
Das Ubuntu 22.04 AMI verwendet Python 3.10 als Standardversion, aktualisiert von Python 3.8. Obwohl Python 3.10 die Kompatibilität mit den meisten Python 3.8-Codes beibehält, sollten Sie Ihre vorhandenen Workloads vor dem Upgrade testen. Wenn Ihre Workloads Python 3.8 erfordern, können Sie es mit dem folgenden Befehl in Ihrem Lifecycle-Skript installieren:
yum install python-3.8
Stellen Sie vor dem Upgrade Ihres Clusters sicher, dass Sie Folgendes tun:
-
Testen Sie Ihre Code-Kompatibilität mit Python 3.10.
-
Stellen Sie sicher, dass Ihre Lifecycle-Skripte in der neuen Umgebung funktionieren.
-
Überprüfen Sie, ob alle Abhängigkeiten mit der neuen Python-Version kompatibel sind.
-
Wenn Sie Ihren HyperPod Cluster erstellt haben, indem Sie das Standard-Lifecycle-Skript von kopiert haben GitHub, fügen Sie Ihrer
setup_mariadb_accounting.sh
Datei den folgenden Befehl hinzu, bevor Sie auf Ubuntu 22 aktualisieren. Das vollständige Skript finden Sie unter setup_mariadb_accounting.sh GitHub. apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
Aktualisieren Sie Ihren Slurm-Cluster
Sie können Ihren Slurm-Cluster auf zwei Arten aktualisieren, um das neue AMI zu verwenden:
-
Erstellen Sie mithilfe der
CreateCluster
API einen neuen Cluster. -
Aktualisieren Sie die Software eines vorhandenen Clusters mithilfe der
UpdateClusterSoftware
API.
Validierte Konfigurationen
AWS hat eine Vielzahl verteilter Trainingsworkloads und Infrastrukturfunktionen auf G5-, G6-, G6e-, P4d-, P5- und Trn1-Instances getestet, darunter:
-
Verteilte Schulungen mit PyTorch (z. B. FSDP, MA, MNIST). NeMo LLa
-
Beschleunigertests für verschiedene Instance-Typen mit Nvidia (P/G-Serie) und AWS Neuron (Trn1).
-
Resilienzfunktionen, zu denen automatische Wiederaufnahme und gründliche Integritätsprüfungen gehören.
Ausfallzeiten und Verfügbarkeit von Clustern
Während des Upgrade-Vorgangs ist der Cluster nicht verfügbar. Gehen Sie wie folgt vor, um Unterbrechungen zu minimieren:
-
Testen Sie den Upgrade-Prozess auf kleineren Clustern.
-
Erstellen Sie vor dem Upgrade Checkpoints und starten Sie die Trainingsworkloads nach Abschluss des Upgrades von den vorhandenen Checkpoints aus neu.
Behebung von Upgrade-Fehlern
Wenn ein Upgrade fehlschlägt, stellen Sie zunächst fest, ob der Fehler mit Lebenszyklusskripts zusammenhängt. Diese Skripts schlagen häufig aufgrund von Syntaxfehlern, fehlenden Abhängigkeiten oder falschen Konfigurationen fehl.
Um Fehler im Zusammenhang mit Lebenszyklusskripten zu untersuchen, überprüfen Sie die CloudWatch Protokolle. Alle SageMaker HyperPod Ereignisse und Protokolle werden in der Protokollgruppe gespeichert:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]
. Schauen Sie sich speziell den Protokollstream anLifecycleConfig/[instance-group-name]/[instance-id]
, der detaillierte Informationen zu Fehlern bei der Skriptausführung enthält.
Wenn der Upgrade-Fehler nichts mit Lifecycle-Skripts zu tun hat, sammeln Sie relevante Informationen, einschließlich Cluster-ARN, Fehlerprotokolle und Zeitstempel, und wenden Sie sich dann an den Support, um weitere AWS Unterstützung
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 07. Mai 2025
Amazon SageMaker HyperPod for Slurm hat ein wichtiges Betriebssystem-Versions-Upgrade auf Ubuntu 22.04 (von dem früheren Ubuntu 20.04) veröffentlicht. Weitere Informationen finden Sie unter DLAMI Ubuntu 22.04 (VersionshinweiseDeep Learning Base OSS
Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503
Wichtige Paket-Upgrades:
-
Ubuntu 22.04 LTS (ab 20.04)
-
Python-Version:
-
Python 3.10 ist jetzt die Standard-Python-Version im Slurm-AMI Ubuntu 22.04
-
Dieses Upgrade bietet Zugriff auf die neuesten Funktionen, Leistungsverbesserungen und Bugfixes, die in Python 3.10 eingeführt wurden
-
-
Support für EFA am FSx
-
Neue Linux-Kernel-Version 6.8 (aktualisiert von 5.15)
-
Glibc-Version: 2.35 (aktualisiert von 2.31)
-
GCC-Version: 11.4.0 (aktualisiert von 9.4.0)
-
Unterstützung neuerer libc6-Versionen (ab libc6-Version <= 2.31)
-
NFS-Version: 1:2.6 .1 (aktualisiert von 1:1.3 .4)
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 28. April 2025
Verbesserungen für Slurm
-
Der NVIDIA-Treiber wurde von Version 550.144.03 auf 550.163.01 aktualisiert. Mit diesem Upgrade sollen häufig auftretende Sicherheitslücken und Sicherheitslücken (CVEs) behoben werden, die im NVIDIA GPU Display Security Bulletin vom April 2025 aufgeführt sind.
Amazon SageMaker HyperPod DLAMI für Slurm-Unterstützung
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 18. Februar 2025
Verbesserungen für Slurm
-
Die Slurm-Version wurde auf 24.11 aktualisiert.
-
Die Version des Elastic Fabric Adapter (EFA) wurde von 1.37.0 auf 1.38.0 aktualisiert.
-
Die EFA enthält jetzt das OFI NCCL-Plugin. AWS Sie finden dieses Plugin im
/opt/amazon/ofi-nccl
Verzeichnis und nicht am ursprünglichen Speicherort./opt/aws-ofi-nccl/
Wenn Sie IhreLD_LIBRARY_PATH
Umgebungsvariable aktualisieren müssen, stellen Sie sicher, dass Sie den Pfad so ändern, dass er auf den neuen/opt/amazon/ofi-nccl
Speicherort für das OFI-NCCL-Plugin verweist. -
Das Emacs-Paket wurde von diesen entfernt. DLAMIs Sie können Emacs von GNU Emac aus installieren.
Amazon SageMaker HyperPod DLAMI für Slurm-Unterstützung
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 21. Dezember 2024
SageMaker HyperPod DLAMI für Slurm-Unterstützung
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 24. November 2024
Allgemeine AMI-Updates
-
Veröffentlicht in der Region
MEL
(Melbourne). -
SageMaker HyperPod Basis-DLAMI wurde auf die folgenden Versionen aktualisiert:
-
Slurm: 22.11.2024.
-
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 15. November 2024
Allgemeine AMI-Updates
-
Das neueste
libnvidia-nscq-xxx
Paket wurde installiert.
SageMaker HyperPod DLAMI für Slurm-Unterstützung
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 11. November 2024
Allgemeine AMI-Updates
-
SageMaker HyperPod Basis-DLAMI wurde auf die folgende Version aktualisiert:
-
Slurm: 2024-10-23.
-
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 21. Oktober 2024
Allgemeine AMI-Updates
-
SageMaker HyperPod Basis-DLAMI wurde auf die folgenden Versionen aktualisiert:
-
Slurm: 2024-09-27.
-
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 10. September 2024
SageMaker HyperPod DLAMI für Slurm-Unterstützung
SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 14. März 2024
HyperPod Software-Patch für Slami für Slurm
-
Open PMIx
v4.2.6 zur Aktivierung von Slurm mit hinzugefügt. PMIx -
Basiert auf dem AWS Deep Learning Base GPU AMI (Ubuntu 20.04), das am 26.10.2023
veröffentlicht wurde -
Eine vollständige Liste der vorinstallierten Pakete in diesem HyperPod DLAMI zusätzlich zum Basis-AMI
-
Öffnen PMIx
: v4.2.6 -
Munge: v0.5.15
-
aws-neuronx-dkms
: v2. * -
aws-neuronx-collectives
: v2. * -
aws-neuronx-runtime-lib
: v2. * -
aws-neuronx-tools
: v2. * -
SageMaker HyperPod Softwarepakete zur Unterstützung von Funktionen wie Cluster-Integritätsprüfung und automatischer Wiederaufnahme
Schritte zur Aktualisierung
-
Führen Sie den folgenden Befehl aus, um die UpdateClusterSoftwareAPI aufzurufen und Ihre vorhandenen HyperPod Cluster mit dem neuesten HyperPod DLAMI zu aktualisieren. Weitere Anweisungen finden Sie unter. Aktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters
Wichtig
Erstellen Sie eine Sicherungskopie Ihrer Arbeit, bevor Sie diese API ausführen. Beim Patchen wird das Root-Volume durch das aktualisierte AMI ersetzt, was bedeutet, dass Ihre zuvor auf dem Instance-Root-Volume gespeicherten Daten verloren gehen. Stellen Sie sicher, dass Sie Ihre Daten vom Instance-Root-Volume auf Amazon S3 oder Amazon FSx for Lustre sichern. Weitere Informationen finden Sie unter Verwenden Sie das Backup-Skript von SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
Anmerkung
Beachten Sie, dass Sie den AWS CLI Befehl ausführen sollten, um Ihren HyperPod Cluster zu aktualisieren. Das Aktualisieren der HyperPod Software über die Benutzeroberfläche der SageMaker HyperPod Konsole ist derzeit nicht verfügbar.
SageMaker HyperPod AMI-Veröffentlichung für Slurm: 29. November 2023
HyperPod Software-Patch für Slami für Slurm
Das HyperPod Serviceteam verteilt Softwarepatches über. SageMaker HyperPod DLAMI Sehen Sie sich die folgenden Details zum neuesten HyperPod DLAMI an.
-
Basiert auf dem AWS Deep Learning Base GPU AMI (Ubuntu 20.04), das am 18.10.2023
veröffentlicht wurde -
Eine vollständige Liste der vorinstallierten Pakete in diesem HyperPod DLAMI zusätzlich zum Basis-AMI
-
Munge: v0.5.15
-
aws-neuronx-dkms
: v2. * -
aws-neuronx-collectives
: v2. * -
aws-neuronx-runtime-lib
: v2. * -
aws-neuronx-tools
: v2. * -
SageMaker HyperPod Softwarepakete zur Unterstützung von Funktionen wie Cluster-Integritätsprüfung und automatischer Wiederaufnahme