Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
SageMaker HyperPod Lanzamientos de AMI para Slurm
Las siguientes notas de la versión incluyen las últimas actualizaciones de las versiones de Amazon SageMaker HyperPod AMI para la orquestación de Slurm. HyperPod AMIs Se basan en la AMI de GPU AWS Deep Learning Base (Ubuntu 22.04).
nota
Para actualizar los HyperPod clústeres existentes con la última DLAMI, consulte. Actualice el software de la SageMaker HyperPod plataforma de un clúster
SageMaker HyperPod Lanzamientos de AMI para Slurm: 13 de mayo de 2025
Amazon SageMaker HyperPod ha publicado una AMI actualizada que admite Ubuntu 22.04 LTS para clústeres de Slurm. AWS se actualiza periódicamente AMIs para garantizar que tenga acceso a la pila de software más reciente. La actualización a la AMI más reciente proporciona una seguridad mejorada mediante actualizaciones integrales de paquetes, un rendimiento y una estabilidad mejorados para las cargas de trabajo y compatibilidad con los nuevos tipos de instancias y las funciones del núcleo más recientes.
importante
La actualización de Ubuntu 20.04 LTS a Ubuntu 22.04 LTS introduce cambios que pueden afectar a la compatibilidad con el software y las configuraciones diseñados para Ubuntu 20.04.
En esta nota de la versión, verá lo siguiente:
Actualizaciones clave de la AMI de Ubuntu 22.04
La siguiente tabla muestra las versiones de los componentes de la AMI de Ubuntu 22.04 comparadas con las de la AMI anterior.
Componente | Versión anterior | Versión actualizada |
---|---|---|
Sistema operativo Ubuntu |
20.04 LTS |
22.04 LTS |
Slurm |
24.11 |
24.11 (sin cambios) |
Python |
3.8 (predeterminado) |
3.10 (predeterminado) |
Elastic Fabric Adapter (EFA) en Amazon FSx |
No compatible |
Compatible |
Núcleo de Linux |
5.15 |
6.8 |
Biblioteca C de GNU (glibc) |
2.31 |
2.35 |
Colección de compiladores GNU (GCC) |
9.4.0 |
11.4.0 |
libc6 |
≤ 2.31 |
Compatible con ≥ 2,35 |
Sistema de archivos de red (NFS) |
1:1.3 .4 |
1:2.6 .1 |
nota
Si bien la versión de Slurm (24.11) permanece sin cambios, las actualizaciones subyacentes del sistema operativo y de la biblioteca de esta AMI pueden afectar al comportamiento del sistema y a la compatibilidad de la carga de trabajo. Debe probar sus cargas de trabajo antes de actualizar los clústeres de producción.
Actualización a la AMI de Ubuntu 22.04
Antes de actualizar el clúster a la AMI de Ubuntu 22.04, complete estos pasos de preparación y revise los requisitos de actualización. Para solucionar errores de actualización, consulte. Solución de problemas de actualización
Revisa la compatibilidad con Python
La AMI de Ubuntu 22.04 usa Python 3.10 como versión predeterminada, actualizada desde Python 3.8. Aunque Python 3.10 mantiene la compatibilidad con la mayoría del código de Python 3.8, debe probar las cargas de trabajo existentes antes de realizar la actualización. Si sus cargas de trabajo requieren Python 3.8, puede instalarlo mediante el siguiente comando en el script de ciclo de vida:
yum install python-3.8
Antes de actualizar el clúster, asegúrese de hacer lo siguiente:
-
Pruebe la compatibilidad de su código con Python 3.10.
-
Compruebe que los scripts de su ciclo de vida funcionan en el nuevo entorno.
-
Comprueba que todas las dependencias son compatibles con la nueva versión de Python.
-
Si ha creado el HyperPod clúster copiando el script de ciclo de vida predeterminado GitHub, añada el siguiente comando al
setup_mariadb_accounting.sh
archivo antes de actualizar a Ubuntu 22. Para ver el script completo, consulta setup_mariadb_accounting.sh en GitHub. apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
Actualice su clúster de Slurm
Puede actualizar su clúster de Slurm para usar la nueva AMI de dos maneras:
-
Cree un clúster nuevo mediante la
CreateCluster
API. -
Actualiza el software de un clúster existente mediante la
UpdateClusterSoftware
API.
Configuraciones validadas
AWS ha probado una amplia gama de cargas de trabajo de formación distribuidas y funciones de infraestructura en instancias G5, G6, G6e, P4d, P5 y Trn1, entre las que se incluyen:
-
Capacitación distribuida con PyTorch (por ejemplo, FSDP, MA, MNIST). NeMo LLa
-
Acelere las pruebas en todos los tipos de instancias con Nvidia (serie P/G) y AWS Neuron (Trn1).
-
Funciones de resiliencia que incluyen la reanudación automática y controles de estado exhaustivos.
Tiempo de inactividad y disponibilidad del clúster
Durante el proceso de actualización, el clúster no estará disponible. Para minimizar las interrupciones, haga lo siguiente:
-
Pruebe el proceso de actualización en clústeres más pequeños.
-
Cree puntos de control antes de la actualización y, una vez finalizada la actualización, reinicie las cargas de trabajo de entrenamiento desde los puntos de control existentes.
Solución de problemas de actualización
Cuando se produce un error en una actualización, determine primero si el error está relacionado con los scripts del ciclo de vida. Estos scripts suelen fallar debido a errores de sintaxis, a la falta de dependencias o a configuraciones incorrectas.
Para investigar los errores relacionados con los scripts del ciclo de vida, consulte CloudWatch los registros. Todos los SageMaker HyperPod eventos y registros se almacenan en el grupo de registros:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]
. Observe específicamente el flujo de registroLifecycleConfig/[instance-group-name]/[instance-id]
, que proporciona información detallada sobre cualquier error durante la ejecución del script.
Si el error de actualización no está relacionado con los scripts del ciclo de vida, recopile la información relevante, como el ARN del clúster, los registros de errores y las marcas de tiempo, y póngase en contacto con el servicio de AWS asistencia para
SageMaker HyperPod Lanzamientos de AMI para Slurm: 7 de mayo de 2025
Amazon SageMaker HyperPod for Slurm publicó una importante actualización de la versión del sistema operativo a Ubuntu 22.04 (desde la versión anterior de Ubuntu 20.04). Consulte DLAMI Ubuntu 22.04 (notas de la versiónDeep Learning Base OSS
Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503
Actualizaciones de paquetes clave:
-
Ubuntu 22.04 LTS (desde 20.04)
-
Versión de Python:
-
Python 3.10 es ahora la versión predeterminada de Python en la AMI de Slurm en Ubuntu 22.04
-
Esta actualización proporciona acceso a las últimas funciones, mejoras de rendimiento y correcciones de errores introducidas en Python 3.10
-
-
Support for EFA on FSx
-
Nueva versión 6.8 del kernel de Linux (actualizada desde la 5.15)
-
Versión Glibc: 2.35 (actualizada desde la 2.31)
-
Versión GCC: 11.4.0 (actualizada desde la 9.4.0)
-
Compatibilidad con la versión libc6 más reciente (desde la versión libc6 <= 2.31)
-
Versión NFS: 1:2.6 .1 (actualizada desde la 1:1.3 .4)
SageMaker HyperPod Lanzamientos de AMI para Slurm: 28 de abril de 2025
Mejoras para Slurm
-
Se actualizó el controlador NVIDIA de la versión 550.144.03 a la 550.163.01. Esta actualización tiene como objetivo abordar las vulnerabilidades y exposiciones comunes (CVEs) presentes en el boletín de seguridad de las pantallas de las GPU de NVIDIA
de abril de 2025.
Compatibilidad con Amazon SageMaker HyperPod DLAMI para Slurm
SageMaker HyperPod Lanzamientos de AMI para Slurm: 18 de febrero de 2025
Mejoras para Slurm
-
Se actualizó la versión de Slurm a la 24.11.
-
Versión mejorada del Elastic Fabric Adapter (EFA) de 1.37.0 a 1.38.0.
-
La EFA ahora incluye el complemento OFI NCCL. AWS Puede encontrar este complemento en el
/opt/amazon/ofi-nccl
directorio, en lugar de en la ubicación original./opt/aws-ofi-nccl/
Si necesita actualizar la variable deLD_LIBRARY_PATH
entorno, asegúrese de modificar la ruta para que apunte a la nueva/opt/amazon/ofi-nccl
ubicación del complemento OFI NCCL. -
Eliminó el paquete emacs de estos. DLAMIs Puede instalar emacs desde GNU emac.
Compatibilidad con Amazon SageMaker HyperPod DLAMI para Slurm
SageMaker HyperPod Lanzamientos de AMI para Slurm: 21 de diciembre de 2024
SageMaker HyperPod Soporte de DLAMI para Slurm
SageMaker HyperPod Lanzamientos de AMI para Slurm: 24 de noviembre de 2024
Actualizaciones generales de la AMI
-
Publicado en la región
MEL
(Melbourne). -
Se actualizó el DLAMI SageMaker HyperPod base a las siguientes versiones:
-
Slurm: 22 de noviembre de 2020.
-
SageMaker HyperPod Lanzamientos de AMI para Slurm: 15 de noviembre de 2024
Actualizaciones generales de la AMI
-
Se instaló el último
libnvidia-nscq-xxx
paquete.
SageMaker HyperPod Soporte de DLAMI para Slurm
SageMaker HyperPod Lanzamientos de AMI para Slurm: 11 de noviembre de 2024
Actualizaciones generales de la AMI
-
Se actualizó el DLAMI SageMaker HyperPod base a la siguiente versión:
-
Slurm: 23 de octubre de 2020.
-
SageMaker HyperPod Lanzamientos de AMI para Slurm: 21 de octubre de 2024
Actualizaciones generales de la AMI
-
Se actualizó el DLAMI SageMaker HyperPod base a las siguientes versiones:
-
Slurm: 27 de septiembre de 2020.
-
SageMaker HyperPod Lanzamientos de AMI para Slurm: 10 de septiembre de 2024
SageMaker HyperPod Soporte de DLAMI para Slurm
SageMaker HyperPod Lanzamientos de AMI para Slurm: 14 de marzo de 2024
HyperPod Parche de software DLAMI para Slurm
-
Se ha actualizado Slurm
a la versión 23.11.1 -
Se basa en la AMI de GPU de base de aprendizaje profundo de AWS (Ubuntu 20.04)
publicada el 26 de octubre de 2023 -
Una lista completa de los paquetes preinstalados en esta HyperPod DLAMI además de la AMI básica
-
Slurm
: v23.11.1 -
Munge: v0.5.15
-
aws-neuronx-dkms
: v2.* -
aws-neuronx-collectives
: v2.* -
aws-neuronx-runtime-lib
: v2.* -
aws-neuronx-tools
: v2.* -
SageMaker HyperPod paquetes de software para admitir funciones como la comprobación del estado del clúster y la reanudación automática
-
Pasos de actualización
-
Ejecute el siguiente comando para llamar a la UpdateClusterSoftwareAPI y actualizar sus HyperPod clústeres existentes con la última HyperPod DLAMI. Para obtener más instrucciones, consulte Actualice el software de la SageMaker HyperPod plataforma de un clúster.
importante
Haga una copia de seguridad de su trabajo antes de ejecutar esta API. El proceso de aplicación de parches reemplaza el volumen raíz por la AMI actualizada, lo que significa que se perderán los datos anteriores almacenados en el volumen raíz de la instancia. Asegúrese de hacer una copia de seguridad de los datos del volumen raíz de la instancia en Amazon S3 o Amazon FSx for Lustre. Para obtener más información, consulte Utilice el script de respaldo proporcionado por SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
nota
Ten en cuenta que debes ejecutar el AWS CLI comando para actualizar el HyperPod clúster. La actualización del HyperPod software a través de la interfaz de usuario de la SageMaker HyperPod consola no está disponible actualmente.
SageMaker HyperPod Versión AMI para Slurm: 29 de noviembre de 2023
HyperPod Parche de software DLAMI para Slurm
El equipo de HyperPod servicio distribuye los parches de software a través de. SageMaker HyperPod DLAMI Consulte los siguientes detalles sobre la última versión de HyperPod DLAMI.
-
Se basa en la AMI de GPU de base de aprendizaje profundo de AWS (Ubuntu 20.04)
publicada el 18 de octubre de 2023 -
Una lista completa de los paquetes preinstalados en esta HyperPod DLAMI además de la AMI básica
-
Slurm
: v23.02.3 -
Munge: v0.5.15
-
aws-neuronx-dkms
: v2.* -
aws-neuronx-collectives
: v2.* -
aws-neuronx-runtime-lib
: v2.* -
aws-neuronx-tools
: v2.* -
SageMaker HyperPod paquetes de software para admitir funciones como la comprobación del estado del clúster y la reanudación automática
-