

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# SageMaker HyperPod Rilasci AMI per Slurm
<a name="sagemaker-hyperpod-release-ami-slurm"></a>

Le seguenti note di rilascio tengono traccia degli ultimi aggiornamenti per le versioni di Amazon SageMaker HyperPod AMI per l'orchestrazione di Slurm. Questi HyperPod AMIs sono basati sull'[AMI GPU AWS Deep Learning Base (Ubuntu 22.04](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-22-04/)). Il team HyperPod di assistenza distribuisce le patch software tramite. [SageMaker HyperPod DLAMI](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-hyperpod-ami) Per le versioni HyperPod AMI per l'orchestrazione di Amazon EKS, consulta. [SageMaker HyperPod Versioni AMI per Amazon EKS](sagemaker-hyperpod-release-ami-eks.md) Per informazioni sulle versioni di SageMaker HyperPod funzionalità di Amazon, consulta[Note di SageMaker HyperPod rilascio di Amazon](sagemaker-hyperpod-release-notes.md).

**Nota**  
Per aggiornare HyperPod i cluster esistenti con il DLAMI più recente, vedere. [Aggiorna il software della SageMaker HyperPod piattaforma di un cluster](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software)

## SageMaker HyperPod Versioni AMI per Slurm: 1 marzo 2026
<a name="sagemaker-hyperpod-release-ami-slurm-20260301"></a>

 **Aggiornamenti generali AMI** 
+ Aggiornamenti rilasciati per SageMaker HyperPod AMI for Slurm versioni 24.11.
+ [La nota di rilascio di DLAMI di base è disponibile qui.](https://docs.aws.amazon.com//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)

 **SageMaker HyperPod Supporto DLAMI per Slurm** 

Questo rilascio include gli aggiornamenti seguenti:

------
#### [ Slurm v24.11 ]
+ Slurm 24.11 (): ARM64
  + Versione del kernel Linux: 6.8
  + Versione Glibc: 2.35
  + Versione OpenSSL: 3.0.2
  + FSx Versione Lustre Client: 2.15.6-1fsx26
  + Versione di esecuzione: 1.3.4
  + Versione containerd: containerd containerd.io v2.2.1
  + Versione del driver NVIDIA: 580.126.09
  + Versione CUDA: 12.6, 12.8, 12.9, 13.0
  + Versione EFA Installer: 1.45.1
  + Versione Python: 3.10.12
  + Versione Slurm: 24.11.0
  + versione nvme-cli: 1.16
  + versione raccolta: 5.12.0.
  + versione lustre-client: 2.15.6-1fsx26
  + versione nvidia-imex: 580.126.09-1
  + versione systemd: 249
  + versione openssh: 8.9
  + versione sudo: 1.9.9
  + versione ufw: 0.36.1
  + versione gcc: 11.4.0
  + versione cmake: 3.22.1
  + versione git: 2.34.1
  + crea versione: 4.3
  + versione cloudwatch-agent: 1.300064.1b1344-1
  + versione nfs-utils: 1:2.6 .1-1ubuntu1.2
  + iscsi-initiator-utils versione: 2.1.5-1ubuntu1.1
  + versione lvm2:2.03.11
  + versione ec2-instance-connect: 1.1.14-0ubuntu1.1
  + versione rdma-core: 60.0-1
+ Slurm 24.11 (x86\_64):
  + Versione del kernel Linux: 6.8
  + Versione Glibc: 2.35
  + Versione OpenSSL: 3.0.2
  + FSx Versione Lustre Client: 2.15.6-1fsx26
  + Versione di esecuzione: 1.3.4
  + Versione containerd: containerd containerd.io v2.2.1
  + Versione DMS di aws Neuronx: 2.26.5.0
  + Versione del driver NVIDIA: 580.126.09
  + Versione CUDA: 12.6, 12.8, 12.9, 13.0
  + Versione EFA Installer: 1.45.0
  + Versione Python: 3.10.12
  + Versione Slurm: 24.11.0
  + versione nvme-cli: 1.16
  + versione antistress: 1.0.5
  + versione raccolta: 5.12.0.
  + versione lustre-client: 2.15.6-1fsx26
  + versione systemd: 249
  + versione openssh: 8.9
  + versione sudo: 1.9.9
  + versione ufw: 0.36.1
  + versione gcc: 11.4.0
  + versione cmake: 3.22.1
  + make versione: 4.3
  + versione cloudwatch-agent: 1.300064.1b1344-1
  + versione nfs-utils: 1:2.6 .1-1ubuntu1.2
  + iscsi-initiator-utils versione: 2.1.5-1ubuntu1.1
  + versione lvm2:2.03.11
  + versione ec2-instance-connect: 1.1.14-0ubuntu1.1
  + versione rdma-core: 60.0-1

------

## SageMaker HyperPod Versioni AMI per Slurm: 12 febbraio 2026
<a name="sagemaker-hyperpod-release-ami-slurm-20260212"></a>

 **Aggiornamenti generali AMI** 
+ Aggiornamenti rilasciati per SageMaker HyperPod AMI for Slurm versioni 24.11.
+ [La nota di rilascio di DLAMI di base è disponibile qui.](https://docs.aws.amazon.com//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)

 **SageMaker HyperPod Supporto DLAMI per Slurm** 

Questo rilascio include gli aggiornamenti seguenti:

------
#### [ Slurm v24.11 ]
+ Slurm 24.11 (): ARM64
  + Versione del kernel Linux: 6.8
  + Versione Glibc: 2.35
  + Versione OpenSSL: 3.0.2
  + FSx Versione Lustre Client: 2.15.6-1fsx25
  + Versione di esecuzione: 1.3.4
  + Versione containerd: containerd containerd.io v2.2.1
  + Versione del driver NVIDIA: 580.126.09
  + Versione CUDA: 12.6, 12.8, 12.9, 13.0
  + Versione EFA Installer: 1.45.1
  + Versione Python: 3.10.12
  + Versione Slurm: 24.11.0
  + versione nvme-cli: 1.16
  + versione raccolta: 5.12.0.
  + versione lustre-client: 2.15.6-1fsx25
  + versione nvidia-imex: 580.126.09-1
  + versione systemd: 249
  + versione openssh: 8.9
  + versione sudo: 1.9.9
  + versione ufw: 0.36.1
  + versione gcc: 11.4.0
  + versione cmake: 3.22.1
  + versione git: 2.34.1
  + crea versione: 4.3
  + versione cloudwatch-agent: 1.300064.0b1337-1
  + versione nfs-utils: 1:2.6 .1-1ubuntu1.2
  + iscsi-initiator-utils versione: 2.1.5-1ubuntu1.1
  + versione lvm2:2.03.11
  + versione ec2-instance-connect: 1.1.14-0ubuntu1.1
  + versione rdma-core: 60.0-1
+ Slurm 24.11 (x86\_64):
  + Versione del kernel Linux: 6.8
  + Versione Glibc: 2.35
  + Versione OpenSSL: 3.0.2
  + FSx Versione Lustre Client: 2.15.6-1fsx25
  + Versione di esecuzione: 1.3.4
  + Versione containerd: containerd containerd.io v2.2.1
  + Versione DMS di aws Neuronx: 2.25.4.0
  + Versione del driver NVIDIA: 580.126.09
  + Versione CUDA: 12.6, 12.8, 12.9, 13.0
  + Versione EFA Installer: 1.45.0
  + Versione Python: 3.10.12
  + Versione Slurm: 24.11.0
  + versione nvme-cli: 1.16
  + versione antistress: 1.0.5
  + versione raccolta: 5.12.0.
  + versione lustre-client: 2.15.6-1fsx25
  + versione systemd: 249
  + versione openssh: 8.9
  + versione sudo: 1.9.9
  + versione ufw: 0.36.1
  + versione gcc: 11.4.0
  + versione cmake: 3.22.1
  + make versione: 4.3
  + versione cloudwatch-agent: 1.300064.0b1337-1
  + versione nfs-utils: 1:2.6 .1-1ubuntu1.2
  + iscsi-initiator-utils versione: 2.1.5-1ubuntu1.1
  + versione lvm2:2.03.11
  + versione ec2-instance-connect: 1.1.14-0ubuntu1.1
  + versione rdma-core: 60.0-1

------

## SageMaker HyperPod Versioni AMI per Slurm: 25 gennaio 2026
<a name="sagemaker-hyperpod-release-ami-slurm-20260125"></a>

 **Aggiornamenti generali AMI** 
+ Aggiornamenti rilasciati per SageMaker HyperPod AMI for Slurm versioni 24.11.
+ [La nota di rilascio di DLAMI di base è disponibile qui.](https://docs.aws.amazon.com//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)

 **SageMaker HyperPod Supporto DLAMI per Slurm** 

Questo rilascio include gli aggiornamenti seguenti:

------
#### [ Slurm v24.11 ]
+ Slurm 24.11 (): ARM64
  + Versione del kernel Linux: 6.8
  + Versione Glibc: 2.35
  + Versione OpenSSL: 3.0.2
  + FSx Versione Lustre Client: 2.15.6-1fsx25
  + Versione di esecuzione: 1.3.4
  + Versione containerd: containerd containerd.io v2.2.1
  + Versione del driver NVIDIA: 580.126.09
  + Versione CUDA: 12.6, 12.8, 12.9, 13.0
  + Versione EFA Installer: 2.3.1amzn3.0
  + Versione Python: 3.10.12
  + Versione Slurm: 24.11.0
  + versione nvme-cli: 1.16
  + versione raccolta: 5.12.0.
  + versione lustre-client: 2.15.6-1fsx25
  + versione nvidia-imex: 580.126.09-1
  + versione systemd: 249
  + versione openssh: 8.9
  + versione sudo: 1.9.9
  + versione ufw: 0.36.1
  + versione gcc: 11.4.0
  + versione cmake: 3.22.1
  + versione git: 2.34.1
  + crea versione: 4.3
  + versione cloudwatch-agent: 1.300063.0b1323-1
  + versione nfs-utils: 1:2.6 .1-1ubuntu1.2
  + iscsi-initiator-utils versione: 2.1.5-1ubuntu1.1
  + versione lvm2:2.03.11
  + versione ec2-instance-connect: 1.1.14-0ubuntu1.1
  + versione rdma-core: 60.0-1
+ Slurm 24.11 (x86\_64):
  + Versione del kernel Linux: 6.8
  + Versione Glibc: 2.35
  + Versione OpenSSL: 3.0.2
  + FSx Versione Lustre Client: 2.15.6-1fsx25
  + Versione di esecuzione: 1.3.4
  + Versione containerd: containerd containerd.io v2.2.1
  + Versione DMS di aws Neuronx: 2.25.4.0
  + Versione del driver NVIDIA: 580.126.09
  + Versione CUDA: 12.6, 12.8, 12.9, 13.0
  + Versione EFA Installer: 2.3.1amzn2.0
  + Versione Python: 3.10.12
  + Versione Slurm: 24.11.0
  + versione nvme-cli: 1.16
  + versione antistress: 1.0.5
  + versione raccolta: 5.12.0.
  + versione lustre-client: 2.15.6-1fsx25
  + versione systemd: 249
  + versione openssh: 8.9
  + versione sudo: 1.9.9
  + versione ufw: 0.36.1
  + versione gcc: 11.4.0
  + versione cmake: 3.22.1
  + make versione: 4.3
  + versione cloudwatch-agent: 1.300063.0b1323-1
  + versione nfs-utils: 1:2.6 .1-1ubuntu1.2
  + iscsi-initiator-utils versione: 2.1.5-1ubuntu1.1
  + versione lvm2:2.03.11
  + versione ec2-instance-connect: 1.1.14-0ubuntu1.1
  + versione rdma-core: 60.0-1

------

## SageMaker HyperPod Versioni AMI per Slurm: 29 dicembre 2025
<a name="sagemaker-hyperpod-release-ami-slurm-20251229"></a>

 **Aggiornamenti generali AMI** 
+ Aggiornamenti rilasciati per SageMaker HyperPod AMI for Slurm versioni 24.11.
+ [La nota di rilascio di DLAMI di base è disponibile qui.](https://docs.aws.amazon.com//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)

 **SageMaker HyperPod Supporto DLAMI per Slurm** 

Questo rilascio include gli aggiornamenti seguenti:

------
#### [ Slurm v24.11 ]
+ Slurm 24.11 (): ARM64
  + Versione del kernel Linux: 6.8
  + Versione Glibc: 2.35
  + Versione OpenSSL: 3.0.2
  + FSx Versione Lustre Client: 2.15.6-1fsx25
  + Versione di esecuzione: 1.3.4
  + Versione containerd: containerd containerd.io v2.2.1
  + Versione del driver NVIDIA: 580.105.08
  + Versione CUDA: 12.6, 12.8, 12.9, 13.0
  + Versione EFA Installer: 2.3.1amzn3.0
  + Versione Python: 3.10.12
  + Versione Slurm: 24.11.0
  + versione nvme-cli: 1.16
  + versione raccolta: 5.12.0.
  + versione lustre-client: 2.15.6-1fsx25
  + versione nvidia-imex: 580.105.08-1
  + versione systemd: 249
  + versione openssh: 8.9
  + versione sudo: 1.9.9
  + versione ufw: 0.36.1
  + versione gcc: 11.4.0
  + versione cmake: 3.22.1
  + versione git: 2.34.1
  + crea versione: 4.3
  + versione cloudwatch-agent: 1.300062.0b1304-1
  + versione nfs-utils: 1:2.6 .1-1ubuntu1.2
  + iscsi-initiator-utils versione: 2.1.5-1ubuntu1.1
  + versione lvm2:2.03.11
  + versione ec2-instance-connect: 1.1.14-0ubuntu1.1
  + versione rdma-core: 60.0-1
+ Slurm 24.11 (x86\_64):
  + Versione del kernel Linux: 6.8
  + Versione Glibc: 2.35
  + Versione OpenSSL: 3.0.2
  + FSx Versione Lustre Client: 2.15.6-1fsx25
  + Versione di esecuzione: 1.3.4
  + Versione containerd: containerd containerd.io v2.2.1
  + Versione DMS di aws Neuronx: 2.25.4.0
  + Versione del driver NVIDIA: 580.105.08
  + Versione CUDA: 12.6, 12.8, 12.9, 13.0
  + Versione EFA Installer: 2.3.1amzn2.0
  + Versione Python: 3.10.12
  + Versione Slurm: 24.11.0
  + versione nvme-cli: 1.16
  + versione antistress: 1.0.5
  + versione raccolta: 5.12.0.
  + versione lustre-client: 2.15.6-1fsx25
  + versione systemd: 249
  + versione openssh: 8.9
  + versione sudo: 1.9.9
  + versione ufw: 0.36.1
  + versione gcc: 11.4.0
  + versione cmake: 3.22.1
  + make versione: 4.3
  + versione cloudwatch-agent: 1.300062.0b1304-1
  + versione nfs-utils: 1:2.6 .1-1ubuntu1.2
  + iscsi-initiator-utils versione: 2.1.5-1ubuntu1.1
  + versione lvm2:2.03.11
  + versione ec2-instance-connect: 1.1.14-0ubuntu1.1
  + versione rdma-core: 60.0-1

------

## SageMaker HyperPod Versioni AMI per Slurm: 22 novembre 2025
<a name="sagemaker-hyperpod-release-ami-slurm-20251128"></a>

 **Aggiornamenti generali AMI** 
+ Aggiornamenti rilasciati per SageMaker HyperPod AMI for Slurm versioni 24.11.
+ [La nota di rilascio di DLAMI di base è disponibile qui.](https://docs.aws.amazon.com//dlami/latest/devguide/appendix-ami-release-notes.html#appendix-ami-release-notes-base)

 **SageMaker HyperPod Supporto DLAMI per Slurm** 

Questo rilascio include gli aggiornamenti seguenti:

------
#### [ Slurm (arm64) ]
+ Versione del kernel Linux: 6.8
+ Versione Glibc: 2.35
+ Versione OpenSSL: 3.0.2
+ FSx Versione Lustre Client: 2.15.6-1fsx21
+ Versione di esecuzione: 1.3.3
+ Versione containerd: containerd containerd.io v2.1.5
+ Versione del driver NVIDIA: 580.95.05
+ Versione CUDA: 12.6, 12.8, 12.9, 13.0
+ Versione EFA Installer: 2.1.0amzn5.0
+ Versione Python: 3.10.12
+ Versione Slurm: 24.11.0
+ versione nvme-cli: 1.16
+ versione raccolta: 5.12.0.
+ versione lustre-client: 2.15.6-1fsx21
+ versione nvidia-imex: 580.95.05-1
+ versione systemd: 249
+ versione openssh: 8.9
+ versione sudo: 1.9.9
+ versione ufw: 0.36.1
+ versione gcc: 11.4.0
+ versione cmake: 3.22.1
+ versione git: 2.34.1
+ crea versione: 4.3
+ versione cloudwatch-agent: 1.300062.0b1304-1
+ versione nfs-utils: 1:2.6 .1-1ubuntu1.2
+ iscsi-initiator-utils versione: 2.1.5-1ubuntu1.1
+ versione lvm2:2.03.11
+ versione ec2-instance-connect: 1.1.14-0ubuntu1.1
+ versione rdma-core: 58.amzn0-1

------
#### [ Slurm (x86\_64) ]
+ Versione del kernel Linux: 6.8
+ Versione Glibc: 2.35
+ Versione OpenSSL: 3.0.2
+ FSx Versione Lustre Client: 2.15.6-1fsx21
+ Versione di esecuzione: 1.3.3
+ Versione containerd: containerd containerd.io v2.1.5
+ Versione DMS di aws Neuronx: 2.24.7.0
+ Versione del driver NVIDIA: 580.95.05
+ Versione CUDA: 12.6, 12.8, 12.9, 13.0
+ Versione del programma di installazione EFA: 2.3.1amzn1.0
+ Versione Python: 3.10.12
+ Versione Slurm: 24.11.0
+ versione nvme-cli: 1.16
+ versione antistress: 1.0.5
+ versione raccolta: 5.12.0.
+ versione lustre-client: 2.15.6-1fsx21
+ versione systemd: 249
+ versione openssh: 8.9
+ versione sudo: 1.9.9
+ versione ufw: 0.36.1
+ versione gcc: 11.4.0
+ versione cmake: 3.22.1
+ make versione: 4.3
+ versione cloudwatch-agent: 1.300062.0b1304-1
+ versione nfs-utils: 1:2.6 .1-1ubuntu1.2
+ iscsi-initiator-utils versione: 2.1.5-1ubuntu1.1
+ versione lvm2:2.03.11
+ versione ec2-instance-connect: 1.1.14-0ubuntu1.1
+ versione rdma-core: 59.amzn0-1

------

## SageMaker HyperPod note di rilascio: 07 novembre 2025
<a name="sagemaker-hyperpod-release-notes-20251107"></a>

**L'AMI include quanto segue:**
+ Supportato Servizio AWS: Amazon EC2
+ Sistema operativo: Ubuntu 22.04
+ Architettura di calcolo: ARM64
+ Pacchetti aggiornati: NVIDIA Driver: 580.95.05
+ Versioni CUDA: cuda-12.6, cuda-12.8, cuda-12.9, cuda-13.0
+ Correzioni [di sicurezza: patch Runc](https://aws.amazon.com/security/security-bulletins/rss/aws-2025-024/) Security

## SageMaker HyperPod note di rilascio: 29 settembre 2025
<a name="sagemaker-hyperpod-release-notes-20250929"></a>

**L'AMI include quanto segue:**
+ Supportato Servizio AWS: Amazon EC2
+ Sistema operativo: Ubuntu 22.04
+ Architettura di calcolo: ARM64
+ Pacchetti aggiornati: NVIDIA Driver: 570.172.08
+ Correzioni di sicurezza

## SageMaker HyperPod note di rilascio: 12 agosto 2025
<a name="sagemaker-hyperpod-release-notes-20250812"></a>

**L'AMI include quanto segue:**
+ Supportato Servizio AWS: Amazon EC2
+ Sistema operativo: Ubuntu 22.04
+ Architettura di calcolo: ARM64
+ L'ultima versione disponibile è installata per i seguenti pacchetti:
  + Kernel Linux: 6.8
  + FSx Lustro
  + Docker
  + AWS CLI v2 in `/usr/bin/aws`
  + NVIDIA DCGM
  + Toolkit per container Nvidia:
    + Comando di versione: `nvidia-container-cli -V`
  + Nvidia-docker2:
    + Comando di versione: `nvidia-docker version`
  + Nvidia-IMEX: v570.172.08-1
+ Driver NVIDIA: 570.158.01
+ Pila NVIDIA CUDA 12.4, 12.5, 12.6, 12.8:
  + Directory di installazione CUDA, NCCL e cuDDN: `/usr/local/cuda-xx.x/`
    + Esempio: `/usr/local/cuda-12.8/`, `/usr/local/cuda-12.8/`
  + Versione NCCL compilata:
    + Per la directory CUDA 12.4, versione NCCL compilata 2.22.3\+ .4 CUDA12
    + Per la directory CUDA 12.5, è stata compilata la versione NCCL 2.22.3\+ .5 CUDA12
    + Per la directory CUDA 12.6, è stata compilata la versione NCCL 2.24.3\+ .6 CUDA12
    + Per la directory CUDA 12.8, è stata compilata la versione NCCL 2.27.5\+ .8 CUDA12
  + CUDA predefinito: 12.8
    + PATH `/usr/local/cuda` punta a CUDA 12.8
    + Aggiornato di seguito le variabili di ambiente:
      + `LD_LIBRARY_PATH`avere `/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64`
      + `PATH`avere `/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/`
      + Per qualsiasi versione CUDA diversa, aggiorna di `LD_LIBRARY_PATH` conseguenza.
+ Programma di installazione EFA: 1.42.0
+  GDRCopyNvidia: 2.5.1
+ AWS Il plugin OFI NCCL viene fornito con il programma di installazione EFA
  + Percorsi `/opt/amazon/ofi-nccl/lib/aarch64-linux-gnu` e vengono aggiunti a. `/opt/amazon/ofi-nccl/efa` `LD_LIBRARY_PATH`
+ AWS CLI v2 at `/usr/local/bin/aws2` e AWS CLI v1 a `/usr/bin/aws`
+ Tipo di volume EBS: gp3
+ Python: `/usr/bin/python3.10`

## SageMaker HyperPod note di rilascio: 27 maggio 2025
<a name="sagemaker-hyperpod-release-notes-20250527"></a>

SageMaker HyperPod rilascia quanto segue per[Orchestrazione SageMaker HyperPod dei cluster con SlurmOrchestrazione Slurm](sagemaker-hyperpod-slurm.md).

**Nuove funzionalità e miglioramenti**
+ L’AMI di base aggiornata a `Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523` con i componenti chiave seguenti:
  + Driver NVIDIA: 570.133.20
  + CUDA: 12.8 (impostazione predefinita), con supporto per CUDA 12.4-12.6
  + Versione NCCL: 2.26.5
  + Programma di installazione EFA: 1.40.0
  + AWS OFI NCCL: 1.14.2-aws
+ Pacchetti di SDK Neuron aggiornati:
  + aws-neuronx-collectives: 2.25.65.0-9858ac9a1 (dal 2.24.59.0-838c7fc8b)
  + aws-neuronx-dkms: 2.21.37.0 (dal 2.20.28.0)
  + aws-neuronx-runtime-lib: 2.25.57.0-166c7a468 (dal 2.24.53.0-f239092cc)
  + aws-neuronx-tools: 2.23.9.0 (dal 2.22.61.0)

**Note importanti**
+ Al momento, il Kit di strumenti per container NVIDIA 1.17.4 ha disabilitato il montaggio delle librerie compatibili CUDA.
+ Configurazione EFA aggiornata da 1.37 a 1.38. EFA ora include il plugin AWS OFI NCCL, che si trova nella directory `/opt/amazon/ofi-nccl` anziché nel percorso `/opt/aws-ofi-nccl/` originale. (Data di rilascio: 18 febbraio 2025)
+ La versione del kernel è bloccata tramite pinning per garantire stabilità e compatibilità dei driver.

## SageMaker HyperPod Versioni AMI per Slurm: 13 maggio 2025
<a name="sagemaker-hyperpod-release-ami-slurm-20250513"></a>

Amazon SageMaker HyperPod ha rilasciato un'AMI aggiornata che supporta Ubuntu 22.04 LTS per cluster Slurm. AWS si aggiorna regolarmente AMIs per garantire l'accesso allo stack software più recente. L’aggiornamento all’AMI più recente offre una maggiore sicurezza grazie ad aggiornamenti completi dei pacchetti, prestazioni e stabilità migliorate per i carichi di lavoro e compatibilità con i nuovi tipi di istanze e le funzionalità del kernel più recenti.

**Importante**  
L’aggiornamento da Ubuntu 20.04 LTS a Ubuntu 22.04 LTS introduce modifiche che potrebbero influire sulla compatibilità con il software e le configurazioni progettate per Ubuntu 20.04.

**Topics**
+ [Aggiornamenti chiave nell’AMI Ubuntu 22.04](#sagemaker-hyperpod-ami-slurm-ubuntu22-updates)
+ [Aggiornamento all’AMI Ubuntu 22.04](#sagemaker-hyperpod-ami-slurm-ubuntu22-upgrade)
+ [Risoluzione dei problemi di aggiornamento](#sagemaker-hyperpod-ami-slurm-ubuntu22-troubleshoot)

### Aggiornamenti chiave nell’AMI Ubuntu 22.04
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-updates"></a>

La tabella seguente elenca le versioni dei componenti dell’AMI Ubuntu 22.04 rispetto all’AMI precedente.


**Versioni dei componenti dell’AMI Ubuntu 22.04 rispetto all’AMI precedente**  

| Componente | Versione precedente | Versione aggiornata | 
| --- | --- | --- | 
| **Sistema operativo Ubuntu** | 20.04 LTS | 22.04 LTS | 
| **Slurm** | 24.11 | 24.11 (invariata) | 
| **Python** | 3.8 (predefinita) | 3.10 (predefinita) | 
| **Elastic Fabric Adapter (EFA) su Amazon FSx** | Non supportata | Supportata | 
| **Kernel Linux** | 5.15 | 6.8 | 
| **Libreria GNU C (glibc)** | 2,31 | 2,35 | 
| **GNU Compiler Collection (GCC)** | 9,40 | 11,4,0 | 
| **libc6** | ≤ 2.31 | Supportato ≥ 2.35 | 
| **File system di rete (NFS)** | 1:1.3.4 | 1:2.6.1 | 

**Nota**  
Sebbene la versione Slurm (24.11) resti invariata, gli aggiornamenti sottostanti del sistema operativo e della libreria in questa AMI possono influire sul comportamento del sistema e sulla compatibilità del carico di lavoro. È necessario testare i carichi di lavoro prima di aggiornare i cluster di produzione.

### Aggiornamento all’AMI Ubuntu 22.04
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-upgrade"></a>

Prima di aggiornare il cluster all’AMI Ubuntu 22.04, completa queste fasi di preparazione e rivedi i requisiti di aggiornamento. Per risolvere gli errori di aggiornamento, consulta [Risoluzione dei problemi di aggiornamento](#sagemaker-hyperpod-ami-slurm-ubuntu22-troubleshoot).

#### Analisi della compatibilità Python
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-python-compatibility"></a>

L’AMI Ubuntu 22.04 utilizza Python 3.10 come versione predefinita, aggiornata da Python 3.8. Sebbene Python 3.10 mantenga la compatibilità con la maggior parte del codice Python 3.8, è necessario testare i carichi di lavoro esistenti prima dell’aggiornamento. Se i tuoi carichi di lavoro richiedono Python 3.8, puoi installarlo utilizzando il comando seguente nello script del ciclo di vita:

```
yum install python-3.8
```

Prima di aggiornare il cluster:

1. Verifica la compatibilità del tuo codice con Python 3.10.

1. Verifica che gli script del ciclo di vita funzionino nel nuovo ambiente.

1. Verifica che tutte le dipendenze siano compatibili con la nuova versione di Python.

1. Se hai creato il HyperPod cluster copiando lo script del ciclo di vita predefinito da GitHub, aggiungi il seguente comando al `setup_mariadb_accounting.sh` file prima di eseguire l'aggiornamento a Ubuntu 22. [Per lo script completo, vedi setup\_mariadb\_accounting.sh su. GitHub](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/setup_mariadb_accounting.sh)

   ```
   apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
   ```

#### Aggiornamento del cluster Slurm
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-upgrade-cluster"></a>

Per utilizzare la nuova AMI, puoi aggiornare il cluster Slurm in due modi:

1. Crea un nuovo cluster con l’API [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html).

1. Aggiorna il software di un cluster esistente con l’API [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html).

#### Configurazioni convalidate
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-validation"></a>

AWS ha testato un'ampia gamma di carichi di lavoro di formazione distribuiti e funzionalità di infrastruttura su istanze G5, G6, G6e, P4d, P5 e Trn1, tra cui:
+ Formazione distribuita con PyTorch (ad esempio, FSDP, MA, MNIST). NeMo LLa
+ Test con acceleratore su diversi tipi di istanze con Nvidia (serie P/G) e Neuron (Trn1). AWS 
+ Funzionalità di resilienza che includono la [ripresa automatica](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-resiliency-slurm.html#sagemaker-hyperpod-resiliency-slurm-auto-resume) e i [controlli dell’integrità approfonditi](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-resiliency-deep-health-checks.html).

#### Tempi di inattività e disponibilità dei cluster
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-downtime-availability"></a>

Durante il processo di aggiornamento, il cluster non sarà disponibile. Per ridurre al minimo le interruzioni, procedi come descritto di seguito:
+ Testa il processo di aggiornamento su cluster più piccoli.
+ Crea checkpoint prima dell’aggiornamento, quindi riavvia i carichi di lavoro di addestramento dai checkpoint esistenti dopo l’aggiornamento.

### Risoluzione dei problemi di aggiornamento
<a name="sagemaker-hyperpod-ami-slurm-ubuntu22-troubleshoot"></a>

Quando un aggiornamento non riesce, stabilisci innanzitutto se l’errore è correlato agli script del ciclo di vita. Questi script generalmente non riescono a causa di errori di sintassi, dipendenze mancanti o configurazioni errate.

Per esaminare gli errori relativi agli script del ciclo di vita, controlla i log. CloudWatch Tutti gli SageMaker HyperPod eventi e i log vengono archiviati nel gruppo di log:. `/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]` Guarda in particolare il flusso di log `LifecycleConfig/[instance-group-name]/[instance-id]`, che fornisce informazioni dettagliate su eventuali errori durante l’esecuzione dello script.

Se l’errore di aggiornamento non è correlato agli script del ciclo di vita, raccogli le informazioni pertinenti, tra cui l’ARN del cluster, i log degli errori e i timestamp, quindi contatta il [supporto AWS](https://aws.amazon.com/premiumsupport/) per ulteriore assistenza.

## SageMaker HyperPod Versioni AMI per Slurm: 07 maggio 2025
<a name="sagemaker-hyperpod-release-ami-slurm-20250507"></a>

Amazon SageMaker HyperPod for Slurm ha rilasciato un importante aggiornamento della versione del sistema operativo a Ubuntu 22.04 (dal precedente Ubuntu 20.04). Consulta DLAMI Ubuntu 22.04 ([note di rilascio](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-22-04/)) per ulteriori informazioni: `Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503`.

Aggiornamenti chiave dei pacchetti:
+ Ubuntu 22.04 LTS (da 20.04)
+ Versione di Python:
  + Python 3.10 è ora la versione Python predefinita nell’AMI Slurm di Ubuntu 22.04
  + Questo aggiornamento fornisce l’accesso alle funzionalità più recenti, miglioramenti delle prestazioni e correzioni di bug introdotte in Python 3.10
+ Support per EFA su FSx
+ Nuova versione del kernel Linux 6.8 (aggiornata dalla versione 5.15)
+ Versione Glibc: 2.35 (aggiornata dalla versione 2.31)
+ Versione GCC: 11.4.0 (aggiornata dalla versione 9.4.0)
+ Supporto per versioni libc6 più recenti (dalla versione libc6 <= 2.31)
+ Versione NFS: 1:2.6.1 (aggiornata dalla versione 1:1.3.4)

## SageMaker HyperPod Versioni AMI per Slurm: 28 aprile 2025
<a name="sagemaker-hyperpod-release-ami-slurm-20250428"></a>

**Miglioramenti per Slurm**
+ Driver NVIDIA aggiornato dalla versione 550.144.03 alla 550.163.01. Questo aggiornamento è destinato a risolvere le vulnerabilità e le esposizioni comuni (CVEs) presenti nel [NVIDIA GPU](https://nvidia.custhelp.com/app/answers/detail/a_id/5630) Display Security Bulletin di aprile 2025.

**Supporto Amazon SageMaker HyperPod DLAMI per Slurm**

------
#### [ Installed the latest version of AWS Neuron SDK ]
+ **aws-neuronx-collectives: 2.24.59.0-838c7fc8b**
+ **aws-neuronx-dkms:** 2,20.28,0
+ **aws-neuronx-runtime-lib: 2,24.53,0-f239092cc**
+ **aws-neuronx-tools/sconosciuto: 2.22.61.0**

------

## SageMaker HyperPod Versioni AMI per Slurm: 18 febbraio 2025
<a name="sagemaker-hyperpod-release-ami-slurm-20250218"></a>

**Miglioramenti per Slurm**
+ Versione Slurm aggiornata alla 24.11.
+ Versione Elastic Fabric Adapter (EFA) aggiornata dalla 1.37.0 alla 1.38.0.
+ L'EFA ora include il plugin OFI AWS NCCL. Puoi trovare questo plugin nella directory `/opt/amazon/ofi-nccl`, anziché nella posizione `/opt/aws-ofi-nccl/` originale. Se devi aggiornare la variabile di ambiente `LD_LIBRARY_PATH`, assicurati di modificare il percorso in modo che punti alla nuova posizione `/opt/amazon/ofi-nccl` del plugin OFI NCCL.
+ È stato rimosso il pacchetto emacs da questi. DLAMIs Puoi installare emacs da GNU emac.

**Supporto Amazon SageMaker HyperPod DLAMI per Slurm**

------
#### [ Installed the latest version of AWS Neuron SDK 2.19 ]
+ **aws-neuronx-collectives/sconosciuto: 2.23.135.0-3e70920f2** amd64
+ **aws-neuronx-dkms/sconosciuto:** 2.19.64.0 amd64
+ **aws-neuronx-runtime-lib/sconosciuto: 2.23.112.0-9b5179492** amd64
+ **aws-neuronx-tools/sconosciuto:** 2.20.204.0 amd64

------

## SageMaker HyperPod Versioni AMI per Slurm: 21 dicembre 2024
<a name="sagemaker-hyperpod-release-ami-slurm-20241221"></a>

**SageMaker HyperPod Supporto DLAMI per Slurm**

------
#### [ Deep Learning Slurm AMI ]
+ **Driver NVIDIA:** 550.127.05
+ **Driver EFA:** 2.13.0-1
+ Installata l'ultima versione di Neuron SDK AWS 
  + **aws-neuronx-collectives: 2.22.33.0**
  + **aws-neuronx-dkms:** 218.20,0
  + **aws-neuronx-oci-hook:** 2.5.8.0
  + **aws-neuronx-runtime-lib:** 2.22.19,0
  + **aws-neuronx-tools:** 2,19,0

------

## SageMaker HyperPod Versioni AMI per Slurm: 24 novembre 2024
<a name="sagemaker-hyperpod-release-ami-slurm-20241124"></a>

**Aggiornamenti generali AMI**
+ Rilasciata nella Regione `MEL` (Melbourne).
+ DLAMI di SageMaker HyperPod base aggiornato alle seguenti versioni:
  + Slurm: 22/11/2024.

## SageMaker HyperPod Versioni AMI per Slurm: 15 novembre 2024
<a name="sagemaker-hyperpod-release-ami-slurm-20241115"></a>

**Aggiornamenti generali AMI**
+ Ultimo pacchetto `libnvidia-nscq-xxx` installato.

**SageMaker HyperPod Supporto DLAMI per Slurm**

------
#### [ Deep Learning Slurm AMI ]
+ **Driver NVIDIA:** 550.127.05
+ **Driver EFA:** 2.13.0-1
+ Installata l'ultima versione di Neuron SDK AWS 
  + **aws-neuronx-collectives: v2.22.33.0-d2128d1aa**
  + **aws-neuronx-dkms:** v2.17.17.0
  + **aws-neuronx-oci-hook:** v2.4.4.0
  + **aws-neuronx-runtime-lib:** v2.21.41.0
  + **aws-neuronx-tools:** v2.18.3.0

------

## SageMaker HyperPod Versioni AMI per Slurm: 11 novembre 2024
<a name="sagemaker-hyperpod-release-ami-slurm-20241111"></a>

**Aggiornamenti generali AMI**
+ DLAMI di SageMaker HyperPod base aggiornato alla seguente versione:
  + Slurm: 23/10/2024.

## SageMaker HyperPod Versioni AMI per Slurm: 21 ottobre 2024
<a name="sagemaker-hyperpod-release-ami-slurm-20241021"></a>

**Aggiornamenti generali AMI**
+ DLAMI di SageMaker HyperPod base aggiornato alle seguenti versioni:
  + Slurm: 27/09/2024.

## SageMaker HyperPod Versioni AMI per Slurm: 10 settembre 2024
<a name="sagemaker-hyperpod-release-ami-slurm-20240910"></a>

**SageMaker HyperPod Supporto DLAMI per Slurm**

------
#### [ Deep Learning Slurm AMI ]
+ Installato il driver NVIDIA v550.90.07
+ Installato il driver EFA v2.10
+ Installata l'ultima versione di Neuron SDK AWS 
  + **aws-neuronx-collectives: v2.21.46.0**
  + **aws-neuronx-dkms:** v2.17.17.0
  + **aws-neuronx-oci-hook:** v2.4.4.0
  + **aws-neuronx-runtime-lib:** v2.21.41.0
  + **aws-neuronx-tools:** v2.18.3.0

------

## SageMaker HyperPod Versioni AMI per Slurm: 14 marzo 2024
<a name="sagemaker-hyperpod-release-ami-slurm-20240314"></a>

**HyperPod Patch software DLAMI per Slurm**
+ [Slurm](https://slurm.schedmd.com/documentation.html) aggiornato alla versione 23.11.1
+ [Aggiunto [Open PMIx](https://openpmix.github.io/code/getting-the-reference-implementation) v4.2.6 per abilitare Slurm con. PMIx](https://slurm.schedmd.com/mpi_guide.html#pmix)
+ Basato sull’[AWS AMI di Deep Learning GPU di base (Ubuntu 20.04)](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-20-04/) rilasciata il 26/10/2023
+ Un elenco completo dei pacchetti preinstallati in questo HyperPod DLAMI oltre all'AMI di base
  + [Slurm](https://slurm.schedmd.com/documentation.html): v23.11.1
  + [Apri PMIx ](https://openpmix.github.io/code/getting-the-reference-implementation): v4.2.6
  + Munge: v0.5.15
  + `aws-neuronx-dkms`: v2.\*
  + `aws-neuronx-collectives`: v2.\*
  + `aws-neuronx-runtime-lib`: v2.\*
  + `aws-neuronx-tools`: v2.\*
  + SageMaker HyperPod pacchetti software per supportare funzionalità come il controllo dello stato del cluster e il ripristino automatico

**Fasi dell’aggiornamento**
+ Esegui il comando seguente per chiamare l'[UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)API per aggiornare i HyperPod cluster esistenti con il HyperPod DLAMI più recente. Per ulteriori istruzioni, consulta [Aggiorna il software della SageMaker HyperPod piattaforma di un cluster](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software).
**Importante**  
Esegui il backup del tuo lavoro prima di eseguire questa API. Il processo di applicazione delle patch sostituisce il volume root con l’AMI aggiornata, il che significa che i dati precedenti archiviati nel volume root dell’istanza andranno persi. Assicurati di eseguire il backup dei dati dal volume root dell'istanza su Amazon S3 o Amazon FSx for Lustre. Per ulteriori informazioni, consulta [Utilizza lo script di backup fornito da SageMaker HyperPod](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software-backup).

  ```
   aws sagemaker update-cluster-software --cluster-name {{your-cluster-name}}
  ```
**Nota**  
Tieni presente che dovresti eseguire il AWS CLI comando per aggiornare il HyperPod cluster. L'aggiornamento del HyperPod software tramite l'interfaccia utente SageMaker HyperPod della console non è attualmente disponibile.

## SageMaker HyperPod Rilascio AMI per Slurm: 29 novembre 2023
<a name="sagemaker-hyperpod-release-ami-slurm-20231129"></a>

**HyperPod Patch software DLAMI per Slurm**

Il team HyperPod di assistenza distribuisce le patch software tramite. [SageMaker HyperPod DLAMI](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-hyperpod-ami) Consulta i seguenti dettagli sull'ultima versione di HyperPod DLAMI.
+ Basato sull’[AWS AMI di Deep Learning GPU di base (Ubuntu 20.04)](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-20-04/) rilasciata il 18/10/2023
+ Un elenco completo dei pacchetti preinstallati in questo HyperPod DLAMI oltre all'AMI di base
  + [Slurm](https://slurm.schedmd.com/documentation.html): v23.02.3
  + Munge: v0.5.15
  + `aws-neuronx-dkms`: v2.\*
  + `aws-neuronx-collectives`: v2.\*
  + `aws-neuronx-runtime-lib`: v2.\*
  + `aws-neuronx-tools`: v2.\*
  + SageMaker HyperPod pacchetti software per supportare funzionalità come il controllo dello stato del cluster e il ripristino automatico