

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Notas de la versión
<a name="sagemaker-eks-checkpointless-release-notes"></a>

Consulte las siguientes notas de la versión para realizar un seguimiento de las últimas actualizaciones de la formación SageMaker HyperPod sin puntos de control.

**El entrenamiento sin SageMaker HyperPod puntos de control (versión 1.0.0)**

Fecha: 3 de diciembre de 2025

**SageMaker HyperPod Funciones de entrenamiento sin puntos de control**
+ **Mejoras en la inicialización de la comunicación colectiva**: ofrece métodos de inicialización novedosos, como Rootless y para NCCL y TCPStoreless Gloo.
+ Cargador de datos **mapeado en memoria (MMAP)**: almacena en caché (conserva) los lotes precargados para que estén disponibles incluso cuando un fallo provoque que se reinicie el trabajo de formación.
+ **Sin puntos de control**: permite una recuperación más rápida de los errores de entrenamiento en clústeres en entornos de entrenamiento distribuidos a gran escala mediante optimizaciones a nivel del marco
+ **Basado en Nvidia Nemo y PyTorch Lightning**: aprovecha estos potentes marcos para un entrenamiento de modelos eficiente y flexible
  + [Nividia NeMo](https://github.com/NVIDIA-NeMo/NeMo)
  + [PyTorch Rayo](https://lightning.ai/docs/pytorch/stable/)

**SageMaker HyperPod Contenedor Docker de entrenamiento sin control**

[Checkpointless Training on HyperPod se basa en el marco de NVIDIA. NeMo ](https://docs.nvidia.com/nemo-framework/user-guide/latest/overview.html) HyperPod El objetivo de checkpointless training es recuperarse con mayor rapidez de los fallos de formación en clústeres en entornos de formación distribuidos a gran escala. Para ello, se realizan optimizaciones a nivel del marco de trabajo que se imparten en un contenedor base que contiene la imagen base con la NCCL y las optimizaciones. PyTorch 

**Disponibilidad.**

Actualmente, las imágenes solo están disponibles en:

```
eu-north-1
ap-south-1
us-east-2
eu-west-1
eu-central-1
sa-east-1
us-east-1
eu-west-2
ap-northeast-1
us-west-2
us-west-1
ap-southeast-1
ap-southeast-2
```

pero no están disponibles en las siguientes 3 regiones en las que se ha optado por participar:

```
ap-southeast-3
ap-southeast-4
eu-south-2
```

**Detalles del contenedor**

Contenedor Docker de entrenamiento sin control para PyTorch la versión 2.6.0 con la versión 12.9 de CUDA

```
963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
```

**Paquetes preinstalados**

```
PyTorch: v2.6.0
CUDA: v12.9
NCCL: v2.27.5
EFA: v1.43.0
AWS-OFI-NCCL v1.16.0
Libfabric version 2.1
Megatron v0.15.0
Nemo v2.6.0rc0
```