SageMaker HyperPod Versionshinweise von Amazon - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

SageMaker HyperPod Versionshinweise von Amazon

Dieses Thema behandelt Versionshinweise, in denen Updates, Korrekturen und neue Funktionen für Amazon nachverfolgt SageMaker HyperPod werden. Wenn Sie nach allgemeinen Feature-Releases, Updates und Verbesserungen für Amazon suchen SageMaker HyperPod, könnte diese Seite hilfreich sein.

Die HyperPod AMI-Versionen werden separat dokumentiert und enthalten Informationen zu den wichtigsten Komponenten, einschließlich allgemeiner AMI-Versionen, Versionen und Abhängigkeiten. Informationen zu HyperPod AMI-Versionen finden Sie unter SageMaker HyperPod Amazon-AMI.

SageMaker HyperPod Versionshinweise: 07. November 2025

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.

Neue Features

SageMaker HyperPod Versionshinweise: 29. September 2025

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.

Neue Features

Weitere Informationen finden Sie unter Kubernetes v1.33.

SageMaker HyperPod Versionshinweise: 4. August 2025

SageMaker HyperPod veröffentlicht neues Publikum AMIs für EKS-Orchestrierung. Public AMIs kann eigenständig verwendet werden, oder sie können verwendet werden, um benutzerdefinierte AMIs zu erstellen. Weitere Informationen zur Öffentlichkeit finden Sie AMIs unterÖffentliche AMI-Veröffentlichungen. Weitere Informationen zum Erstellen einer benutzerdefinierten AMI finden Sie unter Benutzerdefinierte Amazon Machine Images (AMIs) für SageMaker HyperPod Cluster.

SageMaker HyperPod Versionshinweise: 31. Juli 2025

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.

Neue Features und Verbesserungen

  • Es wurde ein neues AMI veröffentlicht, das das Betriebssystem von Amazon Linux 2 auf Amazon Linux 2023 für EKS-Cluster aktualisiert. Zu den wichtigsten Upgrades gehören der Linux-Kernel 6.1, Python 3.10, der NVIDIA-Treiber 560.35.03 und der DNF-Paketmanager, der YUM ersetzt.

    Wichtig

    Das Update von Amazon Linux 2 auf Version AL2 023 führt wichtige Änderungen ein, die sich auf die Kompatibilität mit Software und Konfigurationen auswirken können, die dafür AL2 entwickelt wurden. Wir empfehlen dringend, Ihre Anwendungen mit AL2 023 zu testen, bevor Sie Ihre Cluster vollständig aktualisieren.

    Weitere Informationen über das neue AMI und wie Sie Ihre Cluster aktualisieren, finden Sie unterSageMaker HyperPod AMI-Veröffentlichungen für Amazon EKS: 31. Juli 2025.

SageMaker HyperPod Versionshinweise: 13. Mai 2025

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neue Features und Verbesserungen

  • Es wurde ein aktualisiertes AMI veröffentlicht, das Ubuntu 22.04 LTS für Slurm-Cluster unterstützt. Diese Version umfasst mehrere System- und Softwarekomponenten-Upgrades, um eine verbesserte Leistung, aktualisierte Funktionen und mehr Sicherheit zu bieten.

    Wichtig

    Das Update von Ubuntu 20.04 LTS auf Ubuntu 22.04 LTS führt zu Änderungen, die sich auf die Kompatibilität mit Software und Konfigurationen auswirken können, die für Ubuntu 20.04 entwickelt wurden.

    Weitere Informationen finden Sie unter:

SageMaker HyperPod Versionshinweise: 1. Mai 2025

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.

Neue Features

  • Es wurden Nutzungsberichte für EKS-orchestrierte Cluster hinzugefügt, sodass Unternehmen eine transparente, nutzungsbasierte Kostenverteilung zwischen Teams, Projekten oder Abteilungen implementieren können. Diese Funktion ergänzt die Task-Governance-Funktionalität und sorgt HyperPod so für eine faire Kostenverteilung in gemeinsam genutzten Umgebungen mit mehreren Mandanten AI/ML . Weitere Informationen finden Sie unter Berichterstattung über die Computenutzung in. HyperPod

SageMaker HyperPod Versionshinweise: 28. April 2025

SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Slurm undOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.

Neue Features und Verbesserungen

  • Der NVIDIA-Treiber wurde von Version 550.144.03 auf 550.163.01 aktualisiert. Mit diesem Upgrade sollen häufig auftretende Sicherheitslücken und Sicherheitslücken (CVEs) behoben werden, die im NVIDIA GPU Display Security Bulletin vom April 2025 enthalten sind.

Informationen zu verwandten AMI-Versionen finden Sie unter SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 28. April 2025 und SageMaker HyperPod AMI-Veröffentlichungen für Amazon EKS: 28. April 2025.

SageMaker HyperPod Versionshinweise: 18. April 2025

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.

Neue Features

SageMaker HyperPod Versionshinweise: 10. April 2025

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neue Features und Verbesserungen

  • Es wurde ein Rezept-Tutorial für Direct Preference Optimization (DPO) für die SageMaker HyperPod Slurm-Orchestrierung hinzugefügt. Dieses Tutorial zur Feinabstimmung bietet step-by-step Anleitungen zur Optimierung der Modellausrichtung mithilfe der DPO-Methode auf GPU-betriebenen Slurm-Clustern. SageMaker HyperPod Weitere Informationen finden Sie unter HyperPod Tutorial zum Slurm-Cluster DPO (GPU).

SageMaker HyperPod Versionshinweise: 03. April 2025

SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Slurm undOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.

Neue Features und Verbesserungen

  • Es wurde eine Schnellstart-Seite für die Bereitstellung von SageMaker HyperPod Clustern hinzugefügt. Die Seite nutzt optimierte Einrichtungs-Workflows aus den spezialisierten Workshops und automatisiert SageMaker HyperPod die Bereitstellung mithilfe vorgefertigter Vorlagen. AWS CloudFormation Es unterstützt Infrastruktureinstellungen wie Slurm oder Amazon EKS für eine einfache Konfiguration und Bereitstellung von Basisclustern.

  • SageMaker HyperPod unterstützt jetzt die folgenden Instance-Typen für Slurm- und Amazon EKS-Cluster.

    • Neue Instance-Typen: i3EN-, M7i-, R7i-Instances. Die vollständige Liste der unterstützten Instances finden Sie in dem Feld in der. InstanceType ClusterInstanceGroupDetails

SageMaker HyperPod Versionshinweise: 16. März 2025

SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Slurm undOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.

Neue Features und Verbesserungen

  • Die folgenden IAM-Bedingungsschlüssel wurden für eine detailliertere Zugriffskontrolle in den und API-Vorgängen hinzugefügt. CreateClusterUpdateCluster

    Bedingungsschlüssel Description
    sagemaker:InstanceTypes Steuern Sie den Zugriff basierend auf den angegebenen Instance-Typen.
    sagemaker:VpcSubnets Beschränken Sie die Cluster-Erstellung oder Updates auf bestimmte Amazon VPC-Subnetze.
    sagemaker:VpcSecurityGroupIds Verwalten Sie den Zugriff auf der Grundlage der Amazon VPC-Sicherheitsgruppe IDs.

SageMaker HyperPod Versionshinweise: 20. Februar 2025

SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Slurm undOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.

Neue Features und Verbesserungen

SageMaker HyperPod Versionshinweise: 18. Februar 2025

SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Slurm undOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.

Neue Features

  • Diese Version von SageMaker HyperPod enthält ein Sicherheitsupdate aus dem Nvidia-Container-Toolkit (von Version 1.17.3 auf Version 1.17.4). Weitere Informationen finden Sie unter v1.17.4 Versionshinweis.

    Anmerkung

    Für alle Container-Workloads im Nvidia-Container-Toolkit Version 1.17.4 ist das Mounten von CUDA-Kompatibilitätsbibliotheken jetzt deaktiviert. Um die Kompatibilität mit mehreren CUDA-Versionen in Container-Workflows sicherzustellen, aktualisieren Sie Ihr System so, dass es Ihre CUDA-Kompatibilitätsbibliotheken LD_LIBRARY_PATH einbezieht. Die spezifischen Schritte finden Sie unter Wenn Sie eine CUDA-Kompatibilitätsebene verwenden.

Informationen zu verwandten AMI-Versionen finden Sie unter SageMaker HyperPod AMI-Veröffentlichungen für Slurm: 18. Februar 2025 und SageMaker HyperPod AMI-Veröffentlichungen für Amazon EKS: 18. Februar 2025.

SageMaker HyperPod Versionshinweise: 06. Februar 2025

SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Slurm undOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.

Neue Features und Verbesserungen

  • Verbesserte SageMaker HyperPod Multi-AZ-Unterstützung: Sie können für einzelne Instanzgruppen innerhalb Ihres Clusters verschiedene Subnetze und Sicherheitsgruppen angeben, die sich über verschiedene Availability Zones erstrecken. Weitere Informationen zur SageMaker HyperPod Multi-AZ-Unterstützung finden Sie unter. Einrichtung von Clustern über mehrere SageMaker HyperPod AZs

SageMaker HyperPod Versionshinweise: 22. Januar 2025

AMI-Veröffentlichungen

SageMaker HyperPod Versionshinweise: 09. Januar 2025

SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neue Features und Verbesserungen

SageMaker HyperPod Versionshinweise: 21. Dezember 2024

SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neue Features

  • SageMaker HyperPod unterstützt jetzt die folgenden Instance-Typen für Slurm- und Amazon EKS-Cluster.

    • Neue Instance-Typen: C6GN, C6i, M6i, R6i.

    • Neue Trainium-Instance-Typen: Trn1 und Trn1n.

Verbesserungen

  • Verbesserte Sichtbarkeit der Fehlerprotokollierung, wenn Slurm Jobs unterbricht, und ein unnötiges Abbrechen von Jobschritten bei durch Slurm initiierten Job-Stornierungen wurde verhindert.

  • Das Basis-DLAMI für p5en wurde für Slurm- und Amazon EKS-Cluster aktualisiert.

AMI-Veröffentlichungen

SageMaker HyperPod Versionshinweise: 13. Dezember 2024

SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neues Feature

  • SageMaker HyperPod veröffentlicht eine Reihe von CloudWatch Amazon-Metriken zur Überwachung des Zustands und der Leistung von SageMaker HyperPod Slurm-Clustern. Diese Metriken beziehen sich auf CPU-, GPU-, Speicherauslastung und Cluster-Instance-Informationen wie Knotenanzahl und ausgefallene Knoten. Diese Überwachungsfunktion ist standardmäßig aktiviert, und auf die Metriken kann unter dem /aws/sagemaker/Clusters CloudWatch Namespace zugegriffen werden. Sie können auch CloudWatch Alarme einrichten, die auf diesen Metriken basieren, um potenzielle Probleme in ihren HyperPod SLURM-basierten Clustern proaktiv zu erkennen und zu beheben. Weitere Informationen finden Sie unter Amazon SageMaker HyperPod Slurm-Metriken.

AMI-Veröffentlichungen

SageMaker HyperPod Versionshinweise: 24. November 2024

SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neue Features

AMI-Veröffentlichungen

SageMaker HyperPod Versionshinweise: 15. November 2024

SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm. Weitere Informationen finden Sie unter SageMaker HyperPod AMI-Veröffentlichungen für Amazon EKS: 15. November 2024.

Neue Features und Verbesserungen

  • Unterstützung für die Instance-Typen trn1 und trn1n für von Amazon EKS und Slurm orchestrierte Cluster hinzugefügt.

  • Verbessertes Protokollmanagement für Slurm-Cluster:

    • Implementierte Protokollrotation: wöchentlich oder täglich, je nach Größe.

    • Stellen Sie die Protokollaufbewahrung auf 3 Wochen ein.

    • Komprimierte Protokolle, um die Speicherbelastung zu reduzieren.

    • Fortsetzung des Hochladens von Protokollen CloudWatch zur langfristigen Aufbewahrung.

      Anmerkung

      Einige Protokolle werden immer noch in Syslogs gespeichert.

  • Die Fluent Bit-Einstellungen wurden angepasst, um Probleme mit der Nachverfolgung von Dateien mit langen Zeilen zu verhindern.

Fehlerbehebungen

  • Durch Aktualisierungen des Slurm-Controller-Knotens in der Konfigurationsdatei wurde eine unbeabsichtigte Kürzung verhindert. slurm.config

AMI-Veröffentlichungen

SageMaker HyperPod Versionshinweise: 11. November 2024

SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neues Feature

  • SageMaker HyperPod AMI unterstützt jetzt G6e-Instance-Typen.

AMI-Veröffentlichungen

SageMaker HyperPod Versionshinweise: 31. Oktober 2024

SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neue Features

  • Es wurde eine Herunterskalierung von SageMaker HyperPod Clustern auf Instanzgruppen- und Instanzebene für von Amazon EKS und Slurm orchestrierte Cluster hinzugefügt. Weitere Informationen zum Herunterskalieren von Amazon-EKS-Clustern finden Sie unter Einen SageMaker HyperPod Cluster herunterskalieren. Weitere Informationen zur Verkleinerung von Slurm-Clustern finden Sie unter Einen Cluster herunterskalieren in. Verwaltung von SageMaker HyperPod Slurm-Clustern mit dem AWS CLI

  • SageMaker HyperPod unterstützt jetzt den Instance-Typ P5e sowohl für Amazon EKS- als auch für Slurm-orchestrierte Cluster.

SageMaker HyperPod Versionshinweise: 21. Oktober 2024

SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neues Feature

  • SageMaker HyperPod unterstützt jetzt die Instance-Typen P5e [n], G6, Gr6 und Trn2 [n] für Slurm- und Amazon EKS-Cluster.

AMI-Veröffentlichungen

SageMaker HyperPod Versionshinweise: 10. September 2024

SageMaker HyperPod veröffentlicht Folgendes für Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS undOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neue Features

  • Amazon EKS-Unterstützung wurde hinzugefügt in SageMaker HyperPod. Weitere Informationen hierzu finden Sie unter Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.

  • Unterstützung für die Verwaltung von SageMaker HyperPod Clustern über CloudFormation und Terraform hinzugefügt. Weitere Informationen zur Verwaltung von HyperPod Clustern über CloudFormation finden Sie in der CloudFormation Dokumentation für. AWS::SageMaker::Cluster Weitere Informationen zur Verwaltung von HyperPod Clustern über Terraform finden Sie in der Terraform-Dokumentation für. awscc_sagemaker_cluster

AMI-Veröffentlichungen

SageMaker HyperPod Versionshinweise: 20. August 2024

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neue Features

  • Die Funktion zur SageMaker HyperPod automatischen Wiederaufnahme wurde verbessert und die Resilienzfähigkeit für Slurm-Knoten erweitert, die mit Generic RESources (GRES) verbunden sind.

    Wenn Generic Resources (GRES) an einen Slurm-Knoten angefügt sind, lässt Slurm in der Regel keine Änderungen an der Knotenzuweisung zu, wie z. B. das Ersetzen von Knoten, und erlaubt daher auch nicht die Wiederaufnahme eines fehlgeschlagenen Jobs. Sofern nicht ausdrücklich verboten, setzt die Funktion zur HyperPod automatischen Wiederaufnahme automatisch alle fehlerhaften Jobs, die mit den GRES-fähigen Knoten verknüpft sind, erneut in die Warteschlange. Dieser Vorgang umfasst das Anhalten des Jobs, das Zurücksetzen in die Job-Warteschlange und das anschließende Neustarten des Jobs von Anfang an.

Weitere Änderungen

  • Im SageMaker HyperPod AMI slurmrestdvorverpackt.

  • Die Standardwerte für ResumeTimeout und UnkillableStepTimeout von 60 Sekunden auf 300 Sekunden wurden geändert, um die Reaktionsfähigkeit des Systems und die slurm.conf Auftragsabwicklung zu verbessern.

  • Bei den Integritätsprüfungen für NVIDIA Data Center GPU Manager (DCGM) und das NVIDIA System Management Interface (nvidia-smi) wurden geringfügige Verbesserungen vorgenommen.

Fehlerbehebungen

  • Das HyperPod Auto-Resume-Plug-in kann inaktive Knoten verwenden, um einen Job wieder aufzunehmen.

SageMaker HyperPod Versionshinweise: 20. Juni 2024

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neue Features

  • Es wurde eine neue Funktion hinzugefügt, um zusätzlichen Speicher an SageMaker HyperPod Clusterinstanzen anzuhängen. Mit dieser Funktion können Sie zusätzlichen Speicher auf der Konfigurationsebene der Instanzgruppe während der Clustererstellungs- oder Aktualisierungsprozesse konfigurieren, entweder über die SageMaker HyperPod Konsole oder über CreateClusterund UpdateCluster APIs. Das zusätzliche EBS-Volume wird an jede Instanz innerhalb eines SageMaker HyperPod Clusters angehängt und dort bereitgestellt. /opt/sagemaker Weitere Informationen zur Implementierung in Ihrem SageMaker HyperPod Cluster finden Sie in der aktualisierten Dokumentation auf den folgenden Seiten.

    Beachten Sie, dass Sie die HyperPod Clustersoftware aktualisieren müssen, um diese Funktion nutzen zu können. Nach dem Patchen der HyperPod Clustersoftware können Sie diese Funktion für bestehende SageMaker HyperPod Cluster nutzen, die vor dem 20. Juni 2024 erstellt wurden, indem Sie neue Instanzgruppen hinzufügen. Diese Funktion ist für alle SageMaker HyperPod Cluster, die nach dem 20. Juni 2024 erstellt wurden, voll wirksam.

Schritte zum Upgrade

  • Führen Sie den folgenden Befehl aus, um die UpdateClusterSoftwareAPI aufzurufen und Ihre vorhandenen HyperPod Cluster mit dem neuesten HyperPod DLAMI zu aktualisieren. Weitere Anweisungen finden Sie unter Aktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.

    Wichtig

    Sichern Sie Ihre Arbeit, bevor Sie diese API ausführen. Der Patching-Prozess ersetzt das Root-Volume durch das aktualisierte AMI, was bedeutet, dass Ihre zuvor im Root-Volume der Instance gespeicherten Daten verloren gehen. Stellen Sie sicher, dass Sie Ihre Daten vom Instance-Root-Volume auf Amazon S3 oder Amazon FSx for Lustre sichern. Weitere Informationen finden Sie unter Verwenden Sie das Backup-Skript von SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Anmerkung

    Beachten Sie, dass Sie den AWS CLI Befehl ausführen sollten, um Ihren HyperPod Cluster zu aktualisieren. Das Aktualisieren der HyperPod Software über die Benutzeroberfläche der SageMaker HyperPod Konsole ist derzeit nicht verfügbar.

SageMaker HyperPod Versionshinweise: 24. April 2024

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Fehlerbehebungen

  • Ein Fehler mit dem ThreadsPerCore Parameter in der API wurde behoben. ClusterInstanceGroupSpecification Mit dem Fix werden die Benutzereingaben von CreateClusterund UpdateCluster APIs korrekt verarbeitet und angewendetThreadsPerCore. Dieser Fix ist für HyperPod Cluster wirksam, die nach dem 24. April 2024 erstellt wurden. Wenn Sie Probleme mit diesem Bug hatten und möchten, dass dieser Fix auf Ihren Cluster angewendet wird, müssen Sie einen neuen Cluster erstellen. Stellen Sie sicher, dass Sie Ihre Arbeit sichern und wiederherstellen, während Sie zu einem neuen Cluster wechseln. Folgen Sie dabei den Anweisungen unterVerwenden Sie das Backup-Skript von SageMaker HyperPod.

SageMaker HyperPod Versionshinweise: 27. März 2024

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

HyperPod Software-Patch

Das HyperPod Serviceteam verteilt Softwarepatches überSageMaker HyperPod DLAMI. Sehen Sie sich die folgenden Details zum neuesten HyperPod DLAMI an.

Verbesserungen

  • Das Timeout für die automatische Wiederaufnahme des Dienstes wurde auf 60 Minuten erhöht.

  • Der Prozess zum Ersetzen von Instances wurde verbessert, sodass der Slurm-Controller nicht neu gestartet wird.

  • Verbesserte Fehlermeldungen beim Ausführen von Lebenszyklusskripten, wie z. B. Download-Fehler und Fehler bei der Integritätsprüfung der Instance beim Start der Instance.

Fehlerbehebungen

  • Es wurde ein Fehler mit dem Chrony-Service behoben, der ein Problem mit der Zeitsynchronisierung verursachte.

  • Ein Fehler beim slurm.conf Parsen wurde behoben.

  • Ein Problem mit der go-dcgmNVIDIA-Bibliothek wurde behoben.

SageMaker HyperPod Versionshinweise: 14. März 2024

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Verbesserungen

AMI-Veröffentlichungen

SageMaker HyperPod Versionshinweise: 15. Februar 2024

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neue Features

  • Eine neue UpdateClusterSoftware API für SageMaker HyperPod Sicherheitspatches wurde hinzugefügt. Wenn Sicherheitspatches verfügbar werden, empfehlen wir Ihnen, vorhandene SageMaker HyperPod Cluster in Ihrem Konto zu aktualisieren, indem Sie Folgendes ausführenaws sagemaker update-cluster-software --cluster-name your-cluster-name. Um über future Sicherheitspatches auf dem Laufenden zu bleiben, sollten Sie diese Seite mit den SageMaker HyperPod Versionshinweisen von Amazon weiter verfolgen. Um zu erfahren, wie die UpdateClusterSoftware-API funktioniert, siehe Aktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.

SageMaker HyperPod Versionshinweise: 29. November 2023

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neue Features

  • Amazon wurde SageMaker HyperPod auf der AWS re:Invent 2023 vorgestellt.

AMI-Veröffentlichungen