

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Versionshinweise
<a name="sagemaker-eks-checkpointless-release-notes"></a>

In den folgenden Versionshinweisen finden Sie die neuesten Updates für das SageMaker HyperPod Checkpointless-Training.

**Das SageMaker HyperPod Checkpointless-Training v1.0.1**

Datum: 10. April 2026

**Fehlerbehebungen**
+ Die falsche CUDA-Gerätebindung im Fehlerbehandlungs-Thread wurde behoben. Der Fehlerbehandlungs-Thread legt den CUDA-Gerätekontext jetzt korrekt fest, indem er `LOCAL_RANK` Mit diesem Fix werden Fehler verhindert, dass Geräte bei der Fehlerbehebung während des Prozesses nicht übereinstimmen.

**Das SageMaker HyperPod Checkpointless-Training v1.0.0**

Datum: 03. Dezember 2025

**SageMaker HyperPod Funktionen für das Training ohne Checkpoint**
+ **Verbesserungen der kollektiven Kommunikationsinitialisierung**: Bietet neuartige Initialisierungsmethoden, Rootless und für NCCL und Gloo. TCPStoreless 
+ **Memory-Mapped (MMAP)** Dataloader: Speichert vorab abgerufene Batches im Cache (persistiert), sodass sie auch dann verfügbar sind, wenn ein Fehler einen Neustart des Trainingsjobs verursacht.
+ **Checkpointless**: Ermöglicht eine schnellere Wiederherstellung nach Cluster-Trainingsfehlern in großen, verteilten Trainingsumgebungen durch Optimierungen auf Framework-Ebene
+ **Basiert auf Nvidia Nemo und PyTorch Lightning**: Nutzt diese leistungsstarken Frameworks für effizientes und flexibles Modelltraining
  + [Nvidia NeMo](https://github.com/NVIDIA-NeMo/NeMo)
  + [PyTorch Blitze](https://lightning.ai/docs/pytorch/stable/)

**SageMaker HyperPod Docker-Container für zielloses Training**

[Checkpointless Training on HyperPod basiert auf dem NVIDIA-Framework. NeMo ](https://docs.nvidia.com/nemo-framework/user-guide/latest/overview.html) HyperPod Checkpointless Training zielt darauf ab, Cluster-Trainingsfehler in großen verteilten Trainingsumgebungen schneller zu beheben, indem Optimierungen auf Framework-Ebene vorgenommen werden, die auf einem Basiscontainer bereitgestellt werden, der das Basis-Image mit NCCL und Optimierungen enthält. PyTorch 

**Verfügbarkeit**

Derzeit sind Bilder nur verfügbar in:

```
eu-north-1
ap-south-1
us-east-2
eu-west-1
eu-central-1
sa-east-1
us-east-1
eu-west-2
ap-northeast-1
us-west-2
us-west-1
ap-southeast-1
ap-southeast-2
```

aber nicht verfügbar in den folgenden 3 Opt-in-Regionen:

```
ap-southeast-3
ap-southeast-4
eu-south-2
```

**Details zum Container**

Docker-Container für Checkpointless-Training für PyTorch v2.6.0 mit CUDA v12.9

```
963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1
423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1
556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1
942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1
391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1
311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1
327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1
016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1
356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1
920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1
827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1
885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.1
304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.1
```

**Vorinstallierte Pakete**

```
PyTorch: v2.6.0
CUDA: v12.9
NCCL: v2.27.5
EFA: v1.43.0
AWS-OFI-NCCL v1.16.0
Libfabric version 2.1
Megatron v0.15.0
Nemo v2.6.0rc0
```