Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
SageMaker HyperPod Versionshinweise von Amazon
Dieses Thema behandelt Versionshinweise, in denen Updates, Korrekturen und neue Funktionen für Amazon nachverfolgt SageMaker HyperPod werden. Wenn Sie nach allgemeinen Feature-Releases, Updates und Verbesserungen für Amazon suchen SageMaker HyperPod, könnte diese Seite hilfreich sein.
Die HyperPod AMI-Versionen werden separat dokumentiert und enthalten Informationen zu den wichtigsten Komponenten, einschließlich allgemeiner AMI-Versionen, Versionen und Abhängigkeiten. Informationen zu HyperPod AMI-Versionen finden Sie unter SageMaker HyperPod Amazon-AMI.
SageMaker HyperPod Versionshinweise: 07. November 2025
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.
Neue Features
-
Aktualisierte SicherheitspatchesSageMaker HyperPod AMI-Veröffentlichungen für Amazon EKS: 07. November 2025.
SageMaker HyperPod Versionshinweise: 29. September 2025
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.
Neue Features
-
Das neue SageMaker HyperPod AMI für Amazon EKS 1.33 wurde veröffentlicht. Weitere Informationen finden Sie unter SageMaker HyperPod AMI-Veröffentlichungen für Amazon EKS: 29. September 2025.
Wichtig
Die Beta-Kubernetes-API für dynamische Ressourcenzuweisung ist in dieser Version standardmäßig aktiviert.
-
Diese API verbessert die Planung und Überwachung von Workloads, die Ressourcen erfordern, wie z. GPUs
-
Diese API wurde von der Open-Source-Kubernetes-Community entwickelt und könnte sich in future Versionen von Kubernetes ändern. Bevor Sie die API verwenden, sollten Sie die Kubernetes-Dokumentation lesen und sich darüber informieren
, wie sie sich auf Ihre Workloads auswirkt.
-
-
HyperPod veröffentlicht kein HyperPod Amazon Linux 2-AMI für Kubernetes 1.33. AWSempfiehlt, auf Version 023 zu migrieren. AL2 Weitere Informationen finden Sie unter Upgrade von Amazon Linux 2 auf Version AL2 023.
Weitere Informationen finden Sie unter Kubernetes
SageMaker HyperPod Versionshinweise: 4. August 2025
SageMaker HyperPod veröffentlicht neues Publikum AMIs für EKS-Orchestrierung. Public AMIs kann eigenständig verwendet werden, oder sie können verwendet werden, um benutzerdefinierte AMIs zu erstellen. Weitere Informationen zur Öffentlichkeit finden Sie AMIs unterÖffentliche AMI-Veröffentlichungen. Weitere Informationen zum Erstellen einer benutzerdefinierten AMI finden Sie unter Benutzerdefinierte Amazon Machine Images (AMIs) für SageMaker HyperPod Cluster.
SageMaker HyperPod Versionshinweise: 31. Juli 2025
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.
Neue Features und Verbesserungen
-
Es wurde ein neues AMI veröffentlicht, das das Betriebssystem von Amazon Linux 2 auf Amazon Linux 2023 für EKS-Cluster aktualisiert. Zu den wichtigsten Upgrades gehören der Linux-Kernel 6.1, Python 3.10, der NVIDIA-Treiber 560.35.03 und der DNF-Paketmanager, der YUM ersetzt.
Wichtig
Das Update von Amazon Linux 2 auf Version AL2 023 führt wichtige Änderungen ein, die sich auf die Kompatibilität mit Software und Konfigurationen auswirken können, die dafür AL2 entwickelt wurden. Wir empfehlen dringend, Ihre Anwendungen mit AL2 023 zu testen, bevor Sie Ihre Cluster vollständig aktualisieren.
Weitere Informationen über das neue AMI und wie Sie Ihre Cluster aktualisieren, finden Sie unterSageMaker HyperPod AMI-Veröffentlichungen für Amazon EKS: 31. Juli 2025.
SageMaker HyperPod Versionshinweise: 13. Mai 2025
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neue Features und Verbesserungen
-
Es wurde ein aktualisiertes AMI veröffentlicht, das Ubuntu 22.04 LTS für Slurm-Cluster unterstützt. Diese Version umfasst mehrere System- und Softwarekomponenten-Upgrades, um eine verbesserte Leistung, aktualisierte Funktionen und mehr Sicherheit zu bieten.
Wichtig
Das Update von Ubuntu 20.04 LTS auf Ubuntu 22.04 LTS führt zu Änderungen, die sich auf die Kompatibilität mit Software und Konfigurationen auswirken können, die für Ubuntu 20.04 entwickelt wurden.
Weitere Informationen finden Sie unter:
SageMaker HyperPod Versionshinweise: 1. Mai 2025
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.
Neue Features
-
Es wurden Nutzungsberichte für EKS-orchestrierte Cluster hinzugefügt, sodass Unternehmen eine transparente, nutzungsbasierte Kostenverteilung zwischen Teams, Projekten oder Abteilungen implementieren können. Diese Funktion ergänzt die Task-Governance-Funktionalität und sorgt HyperPod so für eine faire Kostenverteilung in gemeinsam genutzten Umgebungen mit mehreren Mandanten AI/ML . Weitere Informationen finden Sie unter Berichterstattung über die Computenutzung in. HyperPod
SageMaker HyperPod Versionshinweise: 28. April 2025
SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Slurm undOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.
Neue Features und Verbesserungen
-
Der NVIDIA-Treiber wurde von Version 550.144.03 auf 550.163.01 aktualisiert. Mit diesem Upgrade sollen häufig auftretende Sicherheitslücken und Sicherheitslücken (CVEs) behoben werden, die im NVIDIA GPU Display Security Bulletin vom April
2025 enthalten sind.
Informationen zu verwandten AMI-Versionen finden Sie unter SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 28. April 2025 und SageMaker HyperPod AMI-Veröffentlichungen für Amazon EKS: 28. April 2025.
SageMaker HyperPod Versionshinweise: 18. April 2025
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.
Neue Features
-
Neues SageMaker HyperPod AMI für Amazon EKS 1.32.1 veröffentlicht. Weitere Informationen finden Sie unter SageMaker HyperPod AMI-Veröffentlichungen für Amazon EKS: 18. April 2025.
SageMaker HyperPod Versionshinweise: 10. April 2025
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neue Features und Verbesserungen
-
Es wurde ein Rezept-Tutorial für Direct Preference Optimization (DPO) für die SageMaker HyperPod Slurm-Orchestrierung hinzugefügt. Dieses Tutorial zur Feinabstimmung bietet step-by-step Anleitungen zur Optimierung der Modellausrichtung mithilfe der DPO-Methode auf GPU-betriebenen Slurm-Clustern. SageMaker HyperPod Weitere Informationen finden Sie unter HyperPod Tutorial zum Slurm-Cluster DPO (GPU).
SageMaker HyperPod Versionshinweise: 03. April 2025
SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Slurm undOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.
Neue Features und Verbesserungen
-
Es wurde eine Schnellstart-Seite für die Bereitstellung von SageMaker HyperPod Clustern hinzugefügt. Die Seite nutzt optimierte Einrichtungs-Workflows aus den spezialisierten Workshops und automatisiert SageMaker HyperPod die Bereitstellung mithilfe vorgefertigter Vorlagen. AWS CloudFormation Es unterstützt Infrastruktureinstellungen wie Slurm oder Amazon EKS für eine einfache Konfiguration und Bereitstellung von Basisclustern.
-
SageMaker HyperPod unterstützt jetzt die folgenden Instance-Typen für Slurm- und Amazon EKS-Cluster.
-
Neue Instance-Typen: i3EN-, M7i-, R7i-Instances. Die vollständige Liste der unterstützten Instances finden Sie in dem Feld in der.
InstanceTypeClusterInstanceGroupDetails
-
SageMaker HyperPod Versionshinweise: 16. März 2025
SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Slurm undOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.
Neue Features und Verbesserungen
-
Die folgenden IAM-Bedingungsschlüssel wurden für eine detailliertere Zugriffskontrolle in den und API-Vorgängen hinzugefügt.
CreateClusterUpdateClusterBedingungsschlüssel Description sagemaker:InstanceTypesSteuern Sie den Zugriff basierend auf den angegebenen Instance-Typen. sagemaker:VpcSubnetsBeschränken Sie die Cluster-Erstellung oder Updates auf bestimmte Amazon VPC-Subnetze. sagemaker:VpcSecurityGroupIdsVerwalten Sie den Zugriff auf der Grundlage der Amazon VPC-Sicherheitsgruppe IDs.
SageMaker HyperPod Versionshinweise: 20. Februar 2025
SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Slurm undOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.
Neue Features und Verbesserungen
-
Unterstützung für das Löschen von Instanzgruppen aus Ihrem SageMaker HyperPod Cluster wurde hinzugefügt. Weitere Informationen finden Sie unter EKS-orchestrierte Cluster und Instance-Gruppen löschen unter SLURM-orchestrierte Cluster. Herunterskalieren eines Clusters
SageMaker HyperPod Versionshinweise: 18. Februar 2025
SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Slurm undOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.
Neue Features
-
Diese Version von SageMaker HyperPod enthält ein Sicherheitsupdate aus dem Nvidia-Container-Toolkit (von Version 1.17.3 auf Version 1.17.4). Weitere Informationen finden Sie unter v1.17.4 Versionshinweis
. Anmerkung
Für alle Container-Workloads im Nvidia-Container-Toolkit Version 1.17.4 ist das Mounten von CUDA-Kompatibilitätsbibliotheken jetzt deaktiviert. Um die Kompatibilität mit mehreren CUDA-Versionen in Container-Workflows sicherzustellen, aktualisieren Sie Ihr System so, dass es Ihre CUDA-Kompatibilitätsbibliotheken
LD_LIBRARY_PATHeinbezieht. Die spezifischen Schritte finden Sie unter Wenn Sie eine CUDA-Kompatibilitätsebene verwenden.
Informationen zu verwandten AMI-Versionen finden Sie unter SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 18. Februar 2025 und SageMaker HyperPod AMI-Veröffentlichungen für Amazon EKS: 18. Februar 2025.
SageMaker HyperPod Versionshinweise: 06. Februar 2025
SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Slurm undOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.
Neue Features und Verbesserungen
-
Verbesserte SageMaker HyperPod Multi-AZ-Unterstützung: Sie können für einzelne Instanzgruppen innerhalb Ihres Clusters verschiedene Subnetze und Sicherheitsgruppen angeben, die sich über verschiedene Availability Zones erstrecken. Weitere Informationen zur SageMaker HyperPod Multi-AZ-Unterstützung finden Sie unter. Einrichtung von Clustern über mehrere SageMaker HyperPod AZs
SageMaker HyperPod Versionshinweise: 22. Januar 2025
AMI-Veröffentlichungen
SageMaker HyperPod Versionshinweise: 09. Januar 2025
SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neue Features und Verbesserungen
-
IPv6 Unterstützung hinzugefügt: Cluster können IPv6 Adressierung verwenden, wenn sie mit IPv6 -aktivierter VPC und Subnetzen konfiguriert sind. Weitere Informationen finden Sie unter Einrichtung SageMaker HyperPod mit einer benutzerdefinierten Amazon VPC.
SageMaker HyperPod Versionshinweise: 21. Dezember 2024
SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neue Features
-
SageMaker HyperPod unterstützt jetzt die folgenden Instance-Typen für Slurm- und Amazon EKS-Cluster.
-
Neue Instance-Typen: C6GN, C6i, M6i, R6i.
-
Neue Trainium-Instance-Typen: Trn1 und Trn1n.
-
Verbesserungen
-
Verbesserte Sichtbarkeit der Fehlerprotokollierung, wenn Slurm Jobs unterbricht, und ein unnötiges Abbrechen von Jobschritten bei durch Slurm initiierten Job-Stornierungen wurde verhindert.
-
Das Basis-DLAMI für p5en wurde für Slurm- und Amazon EKS-Cluster aktualisiert.
AMI-Veröffentlichungen
SageMaker HyperPod Versionshinweise: 13. Dezember 2024
SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neues Feature
-
SageMaker HyperPod veröffentlicht eine Reihe von CloudWatch Amazon-Metriken zur Überwachung des Zustands und der Leistung von SageMaker HyperPod Slurm-Clustern. Diese Metriken beziehen sich auf CPU-, GPU-, Speicherauslastung und Cluster-Instance-Informationen wie Knotenanzahl und ausgefallene Knoten. Diese Überwachungsfunktion ist standardmäßig aktiviert, und auf die Metriken kann unter dem
/aws/sagemaker/ClustersCloudWatch Namespace zugegriffen werden. Sie können auch CloudWatch Alarme einrichten, die auf diesen Metriken basieren, um potenzielle Probleme in ihren HyperPod SLURM-basierten Clustern proaktiv zu erkennen und zu beheben. Weitere Informationen finden Sie unter Amazon SageMaker HyperPod Slurm-Metriken.
AMI-Veröffentlichungen
SageMaker HyperPod Versionshinweise: 24. November 2024
SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neue Features
-
Unterstützung für die Konfiguration von SageMaker HyperPod Clustern in mehreren Availability Zones wurde hinzugefügt. Weitere Informationen zur SageMaker HyperPod Multi-AZ-Unterstützung finden Sie unterEinrichtung von Clustern über mehrere SageMaker HyperPod AZs.
AMI-Veröffentlichungen
SageMaker HyperPod Versionshinweise: 15. November 2024
SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm. Weitere Informationen finden Sie unter SageMaker HyperPod AMI-Veröffentlichungen für Amazon EKS: 15. November 2024.
Neue Features und Verbesserungen
-
Unterstützung für die Instance-Typen trn1 und trn1n für von Amazon EKS und Slurm orchestrierte Cluster hinzugefügt.
-
Verbessertes Protokollmanagement für Slurm-Cluster:
-
Implementierte Protokollrotation: wöchentlich oder täglich, je nach Größe.
-
Stellen Sie die Protokollaufbewahrung auf 3 Wochen ein.
-
Komprimierte Protokolle, um die Speicherbelastung zu reduzieren.
-
Fortsetzung des Hochladens von Protokollen CloudWatch zur langfristigen Aufbewahrung.
Anmerkung
Einige Protokolle werden immer noch in Syslogs gespeichert.
-
-
Die Fluent Bit-Einstellungen wurden angepasst, um Probleme mit der Nachverfolgung von Dateien mit langen Zeilen zu verhindern.
Fehlerbehebungen
-
Durch Aktualisierungen des Slurm-Controller-Knotens in der Konfigurationsdatei wurde eine unbeabsichtigte Kürzung verhindert.
slurm.config
AMI-Veröffentlichungen
SageMaker HyperPod Versionshinweise: 11. November 2024
SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neues Feature
-
SageMaker HyperPod AMI unterstützt jetzt G6e-Instance-Typen.
AMI-Veröffentlichungen
SageMaker HyperPod Versionshinweise: 31. Oktober 2024
SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neue Features
-
Es wurde eine Herunterskalierung von SageMaker HyperPod Clustern auf Instanzgruppen- und Instanzebene für von Amazon EKS und Slurm orchestrierte Cluster hinzugefügt. Weitere Informationen zum Herunterskalieren von Amazon-EKS-Clustern finden Sie unter Einen SageMaker HyperPod Cluster herunterskalieren. Weitere Informationen zur Verkleinerung von Slurm-Clustern finden Sie unter Einen Cluster herunterskalieren in. Verwaltung von SageMaker HyperPod Slurm-Clustern mit dem AWS CLI
-
SageMaker HyperPod unterstützt jetzt den Instance-Typ P5e sowohl für Amazon EKS- als auch für Slurm-orchestrierte Cluster.
SageMaker HyperPod Versionshinweise: 21. Oktober 2024
SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neues Feature
-
SageMaker HyperPod unterstützt jetzt die Instance-Typen P5e [n], G6, Gr6 und Trn2 [n] für Slurm- und Amazon EKS-Cluster.
AMI-Veröffentlichungen
SageMaker HyperPod Versionshinweise: 10. September 2024
SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neue Features
-
Amazon EKS-Unterstützung wurde hinzugefügt in SageMaker HyperPod. Weitere Informationen hierzu finden Sie unter Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.
-
Unterstützung für die Verwaltung von SageMaker HyperPod Clustern über CloudFormation und Terraform hinzugefügt. Weitere Informationen zur Verwaltung von HyperPod Clustern über CloudFormation finden Sie in der CloudFormation Dokumentation für.
AWS::SageMaker::ClusterWeitere Informationen zur Verwaltung von HyperPod Clustern über Terraform finden Sie in der Terraform-Dokumentationfür. awscc_sagemaker_cluster
AMI-Veröffentlichungen
SageMaker HyperPod Versionshinweise: 20. August 2024
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neue Features
-
Die Funktion zur SageMaker HyperPod automatischen Wiederaufnahme wurde verbessert und die Resilienzfähigkeit für Slurm-Knoten erweitert, die mit Generic RESources (GRES) verbunden sind.
Wenn Generic Resources (GRES)
an einen Slurm-Knoten angefügt sind, lässt Slurm in der Regel keine Änderungen an der Knotenzuweisung zu, wie z. B. das Ersetzen von Knoten, und erlaubt daher auch nicht die Wiederaufnahme eines fehlgeschlagenen Jobs. Sofern nicht ausdrücklich verboten, setzt die Funktion zur HyperPod automatischen Wiederaufnahme automatisch alle fehlerhaften Jobs, die mit den GRES-fähigen Knoten verknüpft sind, erneut in die Warteschlange. Dieser Vorgang umfasst das Anhalten des Jobs, das Zurücksetzen in die Job-Warteschlange und das anschließende Neustarten des Jobs von Anfang an.
Weitere Änderungen
-
Im SageMaker HyperPod AMI
slurmrestdvorverpackt. -
Die Standardwerte für
ResumeTimeoutundUnkillableStepTimeoutvon 60 Sekunden auf 300 Sekunden wurden geändert, um die Reaktionsfähigkeit des Systems und dieslurm.confAuftragsabwicklung zu verbessern. -
Bei den Integritätsprüfungen für NVIDIA Data Center GPU Manager (DCGM) und das NVIDIA System Management Interface (nvidia-smi) wurden geringfügige Verbesserungen vorgenommen.
Fehlerbehebungen
-
Das HyperPod Auto-Resume-Plug-in kann inaktive Knoten verwenden, um einen Job wieder aufzunehmen.
SageMaker HyperPod Versionshinweise: 20. Juni 2024
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neue Features
-
Es wurde eine neue Funktion hinzugefügt, um zusätzlichen Speicher an SageMaker HyperPod Clusterinstanzen anzuhängen. Mit dieser Funktion können Sie zusätzlichen Speicher auf der Konfigurationsebene der Instanzgruppe während der Clustererstellungs- oder Aktualisierungsprozesse konfigurieren, entweder über die SageMaker HyperPod Konsole oder über
CreateClusterundUpdateClusterAPIs. Das zusätzliche EBS-Volume wird an jede Instanz innerhalb eines SageMaker HyperPod Clusters angehängt und dort bereitgestellt./opt/sagemakerWeitere Informationen zur Implementierung in Ihrem SageMaker HyperPod Cluster finden Sie in der aktualisierten Dokumentation auf den folgenden Seiten.Beachten Sie, dass Sie die HyperPod Clustersoftware aktualisieren müssen, um diese Funktion nutzen zu können. Nach dem Patchen der HyperPod Clustersoftware können Sie diese Funktion für bestehende SageMaker HyperPod Cluster nutzen, die vor dem 20. Juni 2024 erstellt wurden, indem Sie neue Instanzgruppen hinzufügen. Diese Funktion ist für alle SageMaker HyperPod Cluster, die nach dem 20. Juni 2024 erstellt wurden, voll wirksam.
Schritte zum Upgrade
-
Führen Sie den folgenden Befehl aus, um die UpdateClusterSoftwareAPI aufzurufen und Ihre vorhandenen HyperPod Cluster mit dem neuesten HyperPod DLAMI zu aktualisieren. Weitere Anweisungen finden Sie unter Aktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.
Wichtig
Sichern Sie Ihre Arbeit, bevor Sie diese API ausführen. Der Patching-Prozess ersetzt das Root-Volume durch das aktualisierte AMI, was bedeutet, dass Ihre zuvor im Root-Volume der Instance gespeicherten Daten verloren gehen. Stellen Sie sicher, dass Sie Ihre Daten vom Instance-Root-Volume auf Amazon S3 oder Amazon FSx for Lustre sichern. Weitere Informationen finden Sie unter Verwenden Sie das Backup-Skript von SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-nameyour-cluster-nameAnmerkung
Beachten Sie, dass Sie den AWS CLI Befehl ausführen sollten, um Ihren HyperPod Cluster zu aktualisieren. Das Aktualisieren der HyperPod Software über die Benutzeroberfläche der SageMaker HyperPod Konsole ist derzeit nicht verfügbar.
SageMaker HyperPod Versionshinweise: 24. April 2024
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Fehlerbehebungen
-
Ein Fehler mit dem
ThreadsPerCoreParameter in der API wurde behoben.ClusterInstanceGroupSpecificationMit dem Fix werden die Benutzereingaben vonCreateClusterundUpdateClusterAPIs korrekt verarbeitet und angewendetThreadsPerCore. Dieser Fix ist für HyperPod Cluster wirksam, die nach dem 24. April 2024 erstellt wurden. Wenn Sie Probleme mit diesem Bug hatten und möchten, dass dieser Fix auf Ihren Cluster angewendet wird, müssen Sie einen neuen Cluster erstellen. Stellen Sie sicher, dass Sie Ihre Arbeit sichern und wiederherstellen, während Sie zu einem neuen Cluster wechseln. Folgen Sie dabei den Anweisungen unterVerwenden Sie das Backup-Skript von SageMaker HyperPod.
SageMaker HyperPod Versionshinweise: 27. März 2024
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
HyperPod Software-Patch
Das HyperPod Serviceteam verteilt Softwarepatches überSageMaker HyperPod DLAMI. Sehen Sie sich die folgenden Details zum neuesten HyperPod DLAMI an.
-
In dieser Version von HyperPod DLAMI wurde Slurm mit REST service (
slurmestd) mit JSON-, YAML- und JWT-Unterstützung erstellt.
Verbesserungen
-
Das Timeout für die automatische Wiederaufnahme des Dienstes wurde auf 60 Minuten erhöht.
-
Der Prozess zum Ersetzen von Instances wurde verbessert, sodass der Slurm-Controller nicht neu gestartet wird.
-
Verbesserte Fehlermeldungen beim Ausführen von Lebenszyklusskripten, wie z. B. Download-Fehler und Fehler bei der Integritätsprüfung der Instance beim Start der Instance.
Fehlerbehebungen
-
Es wurde ein Fehler mit dem Chrony-Service behoben, der ein Problem mit der Zeitsynchronisierung verursachte.
-
Ein Fehler beim
slurm.confParsen wurde behoben. -
Ein Problem mit der
go-dcgmNVIDIA-Bibliothekwurde behoben.
SageMaker HyperPod Versionshinweise: 14. März 2024
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Verbesserungen
-
HyperPod unterstützt jetzt korrekt die Übergabe von Partitionsnamen, die über bereitgestellt wurden,
provisioning_parameters.jsonund erstellt Partitionen entsprechend auf der Grundlage der bereitgestellten Eingaben. Weitere Informationen zuprovisioning_parameters.jsonfinden Sie unter SageMaker HyperPod Formulare und Anpassen von SageMaker HyperPod Clustern mithilfe von Lebenszyklusskripten.
AMI-Veröffentlichungen
SageMaker HyperPod Versionshinweise: 15. Februar 2024
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neue Features
-
Eine neue
UpdateClusterSoftwareAPI für SageMaker HyperPod Sicherheitspatches wurde hinzugefügt. Wenn Sicherheitspatches verfügbar werden, empfehlen wir Ihnen, vorhandene SageMaker HyperPod Cluster in Ihrem Konto zu aktualisieren, indem Sie Folgendes ausführenaws sagemaker update-cluster-software --cluster-name. Um über future Sicherheitspatches auf dem Laufenden zu bleiben, sollten Sie diese Seite mit den SageMaker HyperPod Versionshinweisen von Amazon weiter verfolgen. Um zu erfahren, wie dieyour-cluster-nameUpdateClusterSoftware-API funktioniert, siehe Aktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.
SageMaker HyperPod Versionshinweise: 29. November 2023
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neue Features
-
Amazon wurde SageMaker HyperPod auf der AWS re:Invent 2023 vorgestellt.
AMI-Veröffentlichungen