SageMaker HyperPod AMI-Veröffentlichungen für Slurm - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

SageMaker HyperPod AMI-Veröffentlichungen für Slurm

In den folgenden Versionshinweisen werden die neuesten Updates für Amazon SageMaker HyperPod AMI-Versionen für Slurm-Orchestration beschrieben. Diese HyperPod AMIs basieren auf dem AWS Deep Learning Base GPU AMI (Ubuntu 22.04). Das HyperPod Serviceteam verteilt Softwarepatches über. SageMaker HyperPod DLAMI Informationen zu HyperPod AMI-Versionen für Amazon EKS-Orchestrierung finden Sie unterSageMaker HyperPod AMI-Versionen für Amazon EKS. Informationen zu SageMaker HyperPod Feature-Releases von Amazon finden Sie unter SageMaker HyperPod Versionshinweise von Amazon.

Anmerkung

Informationen zum Aktualisieren vorhandener HyperPod Cluster mit dem neuesten DLAMI finden Sie unter. Aktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters

SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 13. Mai 2025

Amazon SageMaker HyperPod hat ein aktualisiertes AMI veröffentlicht, das Ubuntu 22.04 LTS für Slurm-Cluster unterstützt. AWS wird regelmäßig aktualisiert AMIs , um sicherzustellen, dass Sie Zugriff auf den aktuellsten Software-Stack haben. Ein Upgrade auf das neueste AMI bietet mehr Sicherheit durch umfassende Paket-Updates, verbesserte Leistung und Stabilität für Ihre Workloads sowie Kompatibilität mit neuen Instance-Typen und neuesten Kernel-Funktionen.

Wichtig

Das Update von Ubuntu 20.04 LTS auf Ubuntu 22.04 LTS führt Änderungen ein, die sich auf die Kompatibilität mit Software und Konfigurationen auswirken könnten, die für Ubuntu 20.04 entwickelt wurden.

Wichtige Updates im Ubuntu 22.04 AMI

In der folgenden Tabelle sind die Komponentenversionen des Ubuntu 22.04 AMI im Vergleich zum vorherigen AMI aufgeführt.

Komponentenversionen des Ubuntu 22.04 AMI im Vergleich zum vorherigen AMI
Komponente Frühere Version Aktualisierte Version

Ubuntu-Betriebssystem

20,04 LTS

22.04 LTS

Slurm

24,11

24.11 (unverändert)

Python

3.8 (Standard)

3.10 (Standard)

Elastic Fabric Adapter (EFA) bei Amazon FSx

Nicht unterstützt

Unterstützt

Linux-Kernel

5.15

6.8

GNU-C-Bibliothek (Glibc)

2.31

2,35

GNU-Compiler-Sammlung (GCC)

9.4.0

11,4,0

libc6

≤ 2,31

≥ 2,35 wird unterstützt

Netzwerk-Dateisystem (NFS)

1:1,3 ,4

1:2,6 .1

Anmerkung

Obwohl die Slurm-Version (24.11) unverändert bleibt, können sich die zugrunde liegenden Betriebssystem- und Bibliotheksupdates in diesem AMI auf Ihr Systemverhalten und die Workload-Kompatibilität auswirken. Sie müssen Ihre Workloads testen, bevor Sie Produktionscluster aktualisieren.

Upgrade auf das Ubuntu 22.04 AMI

Bevor Sie Ihren Cluster auf das Ubuntu 22.04 AMI aktualisieren, führen Sie diese Vorbereitungsschritte durch und überprüfen Sie die Upgrade-Anforderungen. Informationen zur Behebung von Upgrade-Fehlern finden Sie unterBehebung von Upgrade-Fehlern.

Überprüfen Sie die Python-Kompatibilität

Das Ubuntu 22.04 AMI verwendet Python 3.10 als Standardversion, aktualisiert von Python 3.8. Obwohl Python 3.10 die Kompatibilität mit den meisten Python 3.8-Codes beibehält, sollten Sie Ihre vorhandenen Workloads vor dem Upgrade testen. Wenn Ihre Workloads Python 3.8 erfordern, können Sie es mit dem folgenden Befehl in Ihrem Lifecycle-Skript installieren:

yum install python-3.8

Stellen Sie vor dem Upgrade Ihres Clusters sicher, dass Sie Folgendes tun:

  1. Testen Sie Ihre Code-Kompatibilität mit Python 3.10.

  2. Stellen Sie sicher, dass Ihre Lifecycle-Skripte in der neuen Umgebung funktionieren.

  3. Überprüfen Sie, ob alle Abhängigkeiten mit der neuen Python-Version kompatibel sind.

  4. Wenn Sie Ihren HyperPod Cluster erstellt haben, indem Sie das Standard-Lifecycle-Skript von kopiert haben GitHub, fügen Sie Ihrer setup_mariadb_accounting.sh Datei den folgenden Befehl hinzu, bevor Sie auf Ubuntu 22 aktualisieren. Das vollständige Skript finden Sie unter setup_mariadb_accounting.sh GitHub.

    apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg

Aktualisieren Sie Ihren Slurm-Cluster

Sie können Ihren Slurm-Cluster auf zwei Arten aktualisieren, um das neue AMI zu verwenden:

  1. Erstellen Sie mithilfe der CreateClusterAPI einen neuen Cluster.

  2. Aktualisieren Sie die Software eines vorhandenen Clusters mithilfe der UpdateClusterSoftwareAPI.

Validierte Konfigurationen

AWS hat eine Vielzahl verteilter Trainingsworkloads und Infrastrukturfunktionen auf G5-, G6-, G6e-, P4d-, P5- und Trn1-Instances getestet, darunter:

Ausfallzeiten und Verfügbarkeit von Clustern

Während des Upgrade-Vorgangs ist der Cluster nicht verfügbar. Gehen Sie wie folgt vor, um Unterbrechungen zu minimieren:

  • Testen Sie den Upgrade-Prozess auf kleineren Clustern.

  • Erstellen Sie vor dem Upgrade Checkpoints und starten Sie die Trainingsworkloads nach Abschluss des Upgrades von den vorhandenen Checkpoints aus neu.

Behebung von Upgrade-Fehlern

Wenn ein Upgrade fehlschlägt, stellen Sie zunächst fest, ob der Fehler mit Lebenszyklusskripts zusammenhängt. Diese Skripts schlagen häufig aufgrund von Syntaxfehlern, fehlenden Abhängigkeiten oder falschen Konfigurationen fehl.

Um Fehler im Zusammenhang mit Lebenszyklusskripten zu untersuchen, überprüfen Sie die CloudWatch Protokolle. Alle SageMaker HyperPod Ereignisse und Protokolle werden in der Protokollgruppe gespeichert:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Schauen Sie sich speziell den Protokollstream anLifecycleConfig/[instance-group-name]/[instance-id], der detaillierte Informationen zu Fehlern bei der Skriptausführung enthält.

Wenn der Upgrade-Fehler nichts mit Lifecycle-Skripts zu tun hat, sammeln Sie relevante Informationen, einschließlich Cluster-ARN, Fehlerprotokolle und Zeitstempel, und wenden Sie sich dann an den Support, um weitere AWS Unterstützung zu erhalten.

SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 07. Mai 2025

Amazon SageMaker HyperPod for Slurm hat ein wichtiges Betriebssystem-Versions-Upgrade auf Ubuntu 22.04 (von dem früheren Ubuntu 20.04) veröffentlicht. Weitere Informationen finden Sie unter DLAMI Ubuntu 22.04 (Versionshinweise):. Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503

Wichtige Paket-Upgrades:

  • Ubuntu 22.04 LTS (ab 20.04)

  • Python-Version:

    • Python 3.10 ist jetzt die Standard-Python-Version im Slurm-AMI Ubuntu 22.04

    • Dieses Upgrade bietet Zugriff auf die neuesten Funktionen, Leistungsverbesserungen und Bugfixes, die in Python 3.10 eingeführt wurden

  • Support für EFA am FSx

  • Neue Linux-Kernel-Version 6.8 (aktualisiert von 5.15)

  • Glibc-Version: 2.35 (aktualisiert von 2.31)

  • GCC-Version: 11.4.0 (aktualisiert von 9.4.0)

  • Unterstützung neuerer libc6-Versionen (ab libc6-Version <= 2.31)

  • NFS-Version: 1:2.6 .1 (aktualisiert von 1:1.3 .4)

SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 28. April 2025

Verbesserungen für Slurm

Amazon SageMaker HyperPod DLAMI für Slurm-Unterstützung

Installed the latest version of AWS Neuron SDK
  • aws-neuronx-collectives: 2,24,59,0-838c7fc8b

  • aws-neuronx-dkms: 2,20,28,0

  • aws-neuronx-runtime-lib: 2,24,53,0-f239092cc

  • aws-neuronx-tools/unbekannt: 2.22.61.0

SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 18. Februar 2025

Verbesserungen für Slurm

  • Die Slurm-Version wurde auf 24.11 aktualisiert.

  • Die Version des Elastic Fabric Adapter (EFA) wurde von 1.37.0 auf 1.38.0 aktualisiert.

  • Die EFA enthält jetzt das OFI NCCL-Plugin. AWS Sie finden dieses Plugin im /opt/amazon/ofi-nccl Verzeichnis und nicht am ursprünglichen Speicherort. /opt/aws-ofi-nccl/ Wenn Sie Ihre LD_LIBRARY_PATH Umgebungsvariable aktualisieren müssen, stellen Sie sicher, dass Sie den Pfad so ändern, dass er auf den neuen /opt/amazon/ofi-nccl Speicherort für das OFI-NCCL-Plugin verweist.

  • Das Emacs-Paket wurde von diesen entfernt. DLAMIs Sie können Emacs von GNU Emac aus installieren.

Amazon SageMaker HyperPod DLAMI für Slurm-Unterstützung

Installed the latest version of AWS Neuron SDK 2.19
  • aws-neuronx-collectives/unbekannt: 2.23.135.0-3e70920f2 amd64

  • aws-neuronx-dkms/unbekannt: 2.19.64.0 amd64

  • aws-neuronx-runtime-lib/unbekannt: 2.23.112.0-9b5179492 amd64

  • aws-neuronx-tools/unbekannt: 2.20.204.0 amd64

SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 21. Dezember 2024

SageMaker HyperPod DLAMI für Slurm-Unterstützung

Deep Learning Slurm AMI
  • NVIDIA-Treiber: 550.127.05

  • EFA-Treiber: 2.13.0-1

  • Die neueste Version von Neuron SDK wurde installiert AWS

    • aws-neuronx-collectives: 2.22.33.0

    • aws-neuronx-dkms: 2,18,20,0

    • aws-neuronx-oci-hook: 2,5,8,0

    • aws-neuronx-runtime-lib: 2.22.19,0

    • aws-neuronx-tools: 2.19.0.0

SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 24. November 2024

Allgemeine AMI-Updates

  • Veröffentlicht in der Region MEL (Melbourne).

  • SageMaker HyperPod Basis-DLAMI wurde auf die folgenden Versionen aktualisiert:

    • Slurm: 22.11.2024.

SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 15. November 2024

Allgemeine AMI-Updates

  • Das neueste libnvidia-nscq-xxx Paket wurde installiert.

SageMaker HyperPod DLAMI für Slurm-Unterstützung

Deep Learning Slurm AMI
  • NVIDIA-Treiber: 550.127.05

  • EFA-Treiber: 2.13.0-1

  • Die neueste Version von Neuron SDK wurde installiert AWS

    • aws-neuronx-collectives: v2.22.33.0-d2128d1aa

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 11. November 2024

Allgemeine AMI-Updates

  • SageMaker HyperPod Basis-DLAMI wurde auf die folgende Version aktualisiert:

    • Slurm: 2024-10-23.

SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 21. Oktober 2024

Allgemeine AMI-Updates

  • SageMaker HyperPod Basis-DLAMI wurde auf die folgenden Versionen aktualisiert:

    • Slurm: 2024-09-27.

SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 10. September 2024

SageMaker HyperPod DLAMI für Slurm-Unterstützung

Deep Learning Slurm AMI
  • Der NVIDIA-Treiber v550.90.07 wurde installiert

  • Der EFA-Treiber v2.10 wurde installiert

  • Die neueste Version von Neuron SDK wurde installiert AWS

    • aws-neuronx-collectives: v2.21.46.0

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 14. März 2024

HyperPod Software-Patch für Slami für Slurm

Schritte zur Aktualisierung

  • Führen Sie den folgenden Befehl aus, um die UpdateClusterSoftwareAPI aufzurufen und Ihre vorhandenen HyperPod Cluster mit dem neuesten HyperPod DLAMI zu aktualisieren. Weitere Anweisungen finden Sie unter. Aktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters

    Wichtig

    Erstellen Sie eine Sicherungskopie Ihrer Arbeit, bevor Sie diese API ausführen. Beim Patchen wird das Root-Volume durch das aktualisierte AMI ersetzt, was bedeutet, dass Ihre zuvor auf dem Instance-Root-Volume gespeicherten Daten verloren gehen. Stellen Sie sicher, dass Sie Ihre Daten vom Instance-Root-Volume auf Amazon S3 oder Amazon FSx for Lustre sichern. Weitere Informationen finden Sie unter Verwenden Sie das Backup-Skript von SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Anmerkung

    Beachten Sie, dass Sie den AWS CLI Befehl ausführen sollten, um Ihren HyperPod Cluster zu aktualisieren. Das Aktualisieren der HyperPod Software über die Benutzeroberfläche der SageMaker HyperPod Konsole ist derzeit nicht verfügbar.

SageMaker HyperPod AMI-Veröffentlichung für Slurm: 29. November 2023

HyperPod Software-Patch für Slami für Slurm

Das HyperPod Serviceteam verteilt Softwarepatches über. SageMaker HyperPod DLAMI Sehen Sie sich die folgenden Details zum neuesten HyperPod DLAMI an.

  • Basiert auf dem AWS Deep Learning Base GPU AMI (Ubuntu 20.04), das am 18.10.2023 veröffentlicht wurde

  • Eine vollständige Liste der vorinstallierten Pakete in diesem HyperPod DLAMI zusätzlich zum Basis-AMI

    • Slurm: v23.02.3

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2. *

    • aws-neuronx-collectives: v2. *

    • aws-neuronx-runtime-lib: v2. *

    • aws-neuronx-tools: v2. *

    • SageMaker HyperPod Softwarepakete zur Unterstützung von Funktionen wie Cluster-Integritätsprüfung und automatischer Wiederaufnahme