SageMaker HyperPod Lançamentos da AMI para o Slurm - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

SageMaker HyperPod Lançamentos da AMI para o Slurm

As notas de lançamento a seguir acompanham as atualizações mais recentes dos lançamentos da Amazon SageMaker HyperPod AMI para orquestração do Slurm. Eles HyperPod AMIs são baseados no AWSDeep Learning Base GPU AMI (Ubuntu 22.04). A equipe HyperPod de serviço distribui patches de software por meio deSageMaker HyperPod DLAMI. Para versões de HyperPod AMI para orquestração do Amazon EKS, consulte. SageMaker HyperPod Lançamentos da AMI para o Amazon EKS Para obter informações sobre os lançamentos de SageMaker HyperPod recursos da Amazon, consulteNotas SageMaker HyperPod de lançamento da Amazon.

nota

Para atualizar os HyperPod clusters existentes com a DLAMI mais recente, consulte. Atualizar o software da SageMaker HyperPod plataforma de um cluster

SageMaker HyperPod Lançamentos da AMI para o Slurm: 22 de novembro de 2025

Atualizações gerais de AMI

SageMaker HyperPod DLAMI para suporte ao Slurm

Esta versão inclui as seguintes alterações:

Slurm (arm64)
  • Versão do kernel Linux: 6.8

  • Versão Glibc: 2.35

  • Versão do OpenSSL: 3.0.2

  • FSx Versão do Lustre Client: 2.15.6-1fsx21

  • Versão Runc: 1.3.3

  • Versão em contêiner: containerd containerd.io v2.1.5

  • Versão do driver NVIDIA: 580.95.05

  • Versão CUDA: 12.6, 12.8, 12.9, 13.0

  • Versão do EFA Installer: 2.1.0amzn5.0

  • Versão Python: 3.10.12

  • Versão do Slurm: 24.11.0

  • versão nvme-cli: 1.16

  • versão coletada: 5.12.0.

  • versão lustre-client: 2.15.6-1fsx21

  • Versão nvidia-imex: 580.95.05-1

  • versão systemd: 249

  • versão openssh: 8.9

  • versão sudo: 1.9.9

  • versão ufw: 0.36.1

  • versão gcc: 11.4.0

  • versão cmake: 3.2.1

  • versão git: 2.34.1

  • versão make: 4.3

  • versão do cloudwatch-agent: 1.300062.0b1304-1

  • versão nfs-utils: 1:2.6.1-1ubuntu1.2

  • iscsi-initiator-utils versão: 2.1.5-1ubuntu1.1

  • versão lvm2:2.03.11

  • versão ec2-instance-connect: 1.1.14-0ubuntu1.1

  • versão rdma-core: 58.amzn0-1

Slurm (x86_64)
  • Versão do kernel Linux: 6.8

  • Versão Glibc: 2.35

  • Versão do OpenSSL: 3.0.2

  • FSx Versão do Lustre Client: 2.15.6-1fsx21

  • Versão Runc: 1.3.3

  • Versão em contêiner: containerd containerd.io v2.1.5

  • versão do aws Neuronx DMS: 2.24.7.0

  • Versão do driver NVIDIA: 580.95.05

  • Versão CUDA: 12.6, 12.8, 12.9, 13.0

  • Versão do EFA Installer: 2.3.1amzn1.0

  • Versão Python: 3.10.12

  • Versão do Slurm: 24.11.0

  • versão nvme-cli: 1.16

  • versão de stress: 1.0.5

  • versão coletada: 5.12.0.

  • versão lustre-client: 2.15.6-1fsx21

  • versão systemd: 249

  • versão openssh: 8.9

  • versão sudo: 1.9.9

  • versão ufw: 0.36.1

  • versão gcc: 11.4.0

  • versão cmake: 3.2.1

  • versão make: 4.3

  • versão do cloudwatch-agent: 1.300062.0b1304-1

  • versão nfs-utils: 1:2.6.1-1ubuntu1.2

  • iscsi-initiator-utils versão: 2.1.5-1ubuntu1.1

  • versão lvm2:2.03.11

  • versão ec2-instance-connect: 1.1.14-0ubuntu1.1

  • versão rdma-core: 59.amzn0-1

SageMaker HyperPod notas de lançamento: 07 de novembro de 2025

A AMI inclui o seguinte:

  • CompatívelAWS service (Serviço da AWS): Amazon EC2

  • Sistema operacional: Ubuntu 22.04

  • Arquitetura de computação: ARM64

  • Pacotes atualizados: NVIDIA Driver: 580.95.05

  • Versões CUDA: cuda-12.6, cuda-12.8, cuda-12.9, cuda-13.0

  • Correções de segurança: Runc Security patch

SageMaker HyperPod notas de lançamento: 29 de setembro de 2025

A AMI inclui o seguinte:

  • CompatívelAWS service (Serviço da AWS): Amazon EC2

  • Sistema operacional: Ubuntu 22.04

  • Arquitetura de computação: ARM64

  • Pacotes atualizados: NVIDIA Driver: 570.172.08

  • Correções de segurança

SageMaker HyperPod notas de lançamento: 12 de agosto de 2025

A AMI inclui o seguinte:

  • CompatívelAWS service (Serviço da AWS): Amazon EC2

  • Sistema operacional: Ubuntu 22.04

  • Arquitetura de computação: ARM64

  • A versão mais recente disponível está instalada para os seguintes pacotes:

    • Kernel Linux: 6.8

    • FSx Lustro

    • Docker

    • AWS CLIv2 em /usr/bin/aws

    • NVIDIA DCGM

    • Nvidia Container Toolkit:

      • Comando de versão: nvidia-container-cli -V

    • Nvidia-docker2:

      • Comando de versão: nvidia-docker version

    • NVIDIA-IMEX: v570.172.08-1

  • Driver NVIDIA: 570.158.01

  • Pilha NVIDIA CUDA 12.4, 12,5, 12,6, 12,8:

    • Diretórios de instalação CUDA, NCCL e cuDDN: /usr/local/cuda-xx.x/

      • Exemplo: /usr/local/cuda-12.8/, /usr/local/cuda-12.8/

    • Versão compilada da NCCL:

      • Para o diretório CUDA de 12.4, compilou a versão NCCL 2.22.3+ .4 CUDA12

      • Para o diretório CUDA de 12.5, compilou a versão NCCL 2.22.3+ .5 CUDA12

      • Para o diretório CUDA de 12.6, compilou a versão NCCL 2.24.3+ .6 CUDA12

      • Para o diretório CUDA de 12.8, compilou a versão NCCL 2.27.5+ .8 CUDA12

    • CUDA padrão: 12,8

      • PATH /usr/local/cuda aponta para CUDA 12.8

      • Variáveis de ambiente atualizadas abaixo:

        • LD_LIBRARY_PATHter /usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64

        • PATHter /usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.

  • Instalador EFA: 1.42.0

  • Nvidia GDRCopy: 2.5.1

  • AWSO plugin OFI NCCL vem com o instalador EFA

    • Caminhos /opt/amazon/ofi-nccl/lib/aarch64-linux-gnu e /opt/amazon/ofi-nccl/efa são adicionados LD_LIBRARY_PATH a.

  • AWS CLIv2 em /usr/local/bin/aws2 e AWS CLI v1 em /usr/bin/aws

  • Tipo de volume do EBS: gp3

  • Python: /usr/bin/python3.10

SageMaker HyperPod notas de lançamento: 27 de maio de 2025

SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com o Slurm.

Novos recursos e melhorias

  • A AMI base foi atualizada para Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523 com os seguintes componentes principais:

    • Driver da NVIDIA 570.133.20

    • CUDA: 12.8 (padrão), com compatibilidade com CUDA 12.4-12.6

    • Versão da NCCL: 2.26.5

    • Instalador do EFA: 1.40.0

    • AWSOFI NCCL: 1.14.2-aws

  • Pacotes atualizados do Neuron SDK:

    • aws-neuronx-collectives: 2.25.65.0-9858ac9a1 (de 2.24.59.0-838c7fc8b)

    • aws-neuronx-dkms: 2.21.37.0 (a partir de 2.20.28.0)

    • aws-neuronx-runtime-lib: 2.25.57.0-166c7a468 (de 2.24.53.0-f239092cc)

    • aws-neuronx-tools: 2.23.9.0 (a partir de 2.22.61.0)

Observações importantes

  • O NVIDIA Container Toolkit 1.17.4 agora desabilitou a montagem de bibliotecas compatíveis com CUDA.

  • Atualização da configuração do EFA de 1.37 para 1.38. Agora o EFA inclui o plug-in AWS OFI NCCL, que está localizado no diretório /opt/amazon/ofi-nccl, em vez de no caminho original /opt/aws-ofi-nccl/. (Lançamento em 18 de fevereiro de 2025)

  • A versão do kernel é fixa para estabilidade e compatibilidade de drivers.

SageMaker HyperPod Lançamentos da AMI para o Slurm: 13 de maio de 2025

A Amazon SageMaker HyperPod lançou uma AMI atualizada que suporta o Ubuntu 22.04 LTS para clusters Slurm. AWS AMIs atualiza regularmente para garantir que você tenha acesso à pilha de software mais atual. A atualização para a AMI mais recente oferece segurança aprimorada por meio de atualizações abrangentes de pacotes, desempenho e estabilidade aprimorados para suas workloads e compatibilidade com novos tipos de instância e os recursos mais recentes do kernel.

Importante

A atualização do Ubuntu 20.04 LTS para o Ubuntu 22.04 LTS introduz mudanças que podem afetar a compatibilidade com o software e as configurações projetadas para o Ubuntu 20.04.

Principais atualizações na AMI para o Ubuntu 22.04.

A tabela a seguir lista as versões dos componentes da AMI do Ubuntu 22.04 em comparação com a AMI anterior.

Versões de componentes da AMI do Ubuntu 22.04 em comparação com a AMI anterior
Componente Versão anterior Versão atualizada

Sistema operacional Ubuntu

20.04 LTS

22.04 LTS

Slurm

24.11

24.11 (inalterado)

Python

3.8 (padrão)

3.10 (padrão)

Adaptador Elastic Fabric (EFA) na Amazon FSx

Não compatível

Compatível

Kernel do Linux

5.15

6.8

Biblioteca GNU C (glibc)

2.31

2,35

Coleção de compiladores GNU (GCC)

9.4.0

11.4.0

libc6

≤ 2.31

Compatível com ≥ 2.35

Network File System (NFS)

1:1.3.4

1:2.6.1

nota

Embora a versão do Slurm (24.11) permaneça inalterada, as atualizações subjacentes do sistema operacional e da biblioteca nessa AMI podem afetar o comportamento do sistema e a compatibilidade das workloads. Você deve testar suas workloads antes de atualizar os clusters de produção.

Atualização para a AMI do Ubuntu 22.04

Antes de atualizar o cluster para a AMI do Ubuntu 22.04, conclua estas etapas de preparação e analise os requisitos de atualização. Para solucionar falhas de atualização, consulte Solução de problemas de falhas de atualização.

Analisar a compatibilidade com o Python

A AMI do Ubuntu 22.04 usa o Python 3.10 como a versão padrão, atualizada do Python 3.8. Embora o Python 3.10 mantenha a compatibilidade com a maioria dos códigos do Python 3.8, você deve testar suas workloads existentes antes da atualização. Se as workloads exigirem o Python 3.8, você poderá instalá-lo usando o seguinte comando em seu script de ciclo de vida:

yum install python-3.8

Antes de atualizar o cluster, faça o seguinte:

  1. Teste a compatibilidade do código com o Python 3.10.

  2. Verifique se os scripts de ciclo de vida funcionam no novo ambiente.

  3. Verifique se todas as dependências são compatíveis com a nova versão do Python.

  4. Se você criou seu HyperPod cluster copiando o script de ciclo de vida padrão de GitHub, adicione o seguinte comando ao seu setup_mariadb_accounting.sh arquivo antes de atualizar para o Ubuntu 22. Para ver o script completo, consulte setup_mariadb_accounting.sh em GitHub.

    apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg

Atualizar o cluster do Slurm

Há duas maneiras de atualizar o cluster do Slurm para usar a nova AMI:

  1. Crie um cluster usando a API CreateCluster.

  2. Atualize o software de um cluster existente usando a API UpdateClusterSoftware.

Validar configurações

AWStestou uma ampla variedade de cargas de trabalho de treinamento distribuídas e recursos de infraestrutura nas instâncias G5, G6, G6e, P4d, P5 e Trn1, incluindo:

Tempo de inatividade e disponibilidade do cluster

Durante o processo de atualização, o cluster não estará disponível. Para minimizar a interrupção, faça o seguinte:

  • Teste o processo de atualização em clusters menores.

  • Crie pontos de verificação antes da atualização e reinicie as workloads de treinamento dos pontos de verificação existentes após a conclusão da atualização.

Solução de problemas de falhas de atualização

Quando uma atualização falhar, primeiro determine se a falha está relacionada aos scripts de ciclo de vida. Esses scripts geralmente falham devido a erros de sintaxe, dependências ausentes ou configurações incorretas.

Para investigar falhas relacionadas aos scripts de ciclo de vida, verifique CloudWatch os registros. Todos os SageMaker HyperPod eventos e registros são armazenados no grupo de registros:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Veja especificamente o fluxo de logs LifecycleConfig/[instance-group-name]/[instance-id], que fornece informações detalhadas sobre quaisquer erros durante a execução do script.

Se a falha da atualização não estiver relacionada aos scripts de ciclo de vida, colete informações relevantes, incluindo o ARN do cluster, os logs de erros e os registros de data/hora, e entre em contato com o AWS Support para obter ajuda adicional.

SageMaker HyperPod Lançamentos da AMI para o Slurm: 07 de maio de 2025

O Amazon SageMaker HyperPod for Slurm lançou uma grande atualização da versão do sistema operacional para o Ubuntu 22.04 (do Ubuntu 20.04 anterior). Verifique a DLAMI do Ubuntu 22.04 (notas de lançamento) para ter mais informações: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503.

Principais atualizações de pacotes:

  • Ubuntu 22.04 LTS (a partir da 20.04)

  • Versão do Python:

    • O Python 3.10 agora é a versão padrão do Python na AMI do Slurm do Ubuntu 22.04.

    • Essa atualização oferece acesso aos recursos mais recentes, melhorias de desempenho e correções de erros introduzidos no Python 3.10

  • Support for EFA em FSx

  • Novo Kernel do Linux, versão 6.8 (atualizado a partir da 5.15)

  • Versão da Glibc: 2.35 (atualizada a partir da 2.31)

  • Versão do GCC: 11.4.0 (atualizada a partir da 9.4.0)

  • Suporte à versão da libc6 mais recente (da versão da libc6 <= 2.31)

  • Versão do NFS: 1:2.6.1 (atualizado a partir da 1:1.3.4)

SageMaker HyperPod Lançamentos da AMI para o Slurm: 28 de abril de 2025

Melhorias para o Slurm

  • Atualização do driver da NVIDIA da versão 550.144.03 para a 550.163.01. Essa atualização visa abordar vulnerabilidades e exposições comuns (CVEs) presentes no Boletim de Segurança do NVIDIA GPU Display de abril de 2025.

Amazon SageMaker HyperPod DLAMI para suporte ao Slurm

Installed the latest version ofAWSNeuron SDK
  • aws-neuronx-collectives: 2.24.59.0-838c7fc8b

  • aws-neuronx-dkms: 2.20.28.0

  • aws-neuronx-runtime-lib: 2.24.53.0-f239092cc

  • aws-neuronx-tools/desconhecido: 2.22.61.0

SageMaker HyperPod Lançamentos da AMI para o Slurm: 18 de fevereiro de 2025

Melhorias para o Slurm

  • Atualização da versão do Slurm para 24.11.

  • Versão atualizada do Elastic Fabric Adapter (EFA) de 1.37.0 para 1.38.0.

  • O EFA agora inclui o plug-in AWS OFI NCCL. É possível encontrar esse plug-in no diretório /opt/amazon/ofi-nccl, em vez de no local original /opt/aws-ofi-nccl/. Se você precisar atualizar sua variável de ambiente LD_LIBRARY_PATH, modifique o caminho para apontar para o novo local /opt/amazon/ofi-nccl local do plug-in OFI NCCL.

  • O pacote emacs foi removido deles. DLAMIs Você pode instalar emacs a partir do GNU Emacs.

Amazon SageMaker HyperPod DLAMI para suporte ao Slurm

Installed the latest version ofAWSNeuron SDK 2.19
  • aws-neuronx-collectives/desconhecido: 2.23.135.0-3e70920f2 amd64

  • aws-neuronx-dkms/desconhecido: 2.19.64.0 amd64

  • aws-neuronx-runtime-lib/desconhecido: 2.23.112.0-9b5179492 amd64

  • aws-neuronx-tools/desconhecido: 2.20.204.0 amd64

SageMaker HyperPod Lançamentos da AMI para o Slurm: 21 de dezembro de 2024

SageMaker HyperPod DLAMI para suporte ao Slurm

Deep Learning Slurm AMI
  • Driver da NVIDIA: 550.127.05

  • Driver do EFA: 2.13.0-1

  • Instalou a versão mais recente do AWS Neuron SDK

    • aws-neuronx-collectives: 2.22.3.0

    • aws-neuronx-dkms: 2.18.20.0

    • aws-neuronx-oci-hook: 2.5.8.0

    • aws-neuronx-runtime-lib: 2.22.19.0

    • aws-neuronx-tools: 2.19.0.0

SageMaker HyperPod Lançamentos da AMI para o Slurm: 24 de novembro de 2024

Atualizações gerais de AMI

  • Lançadas na região MEL (Melbourne).

  • DLAMI SageMaker HyperPod base atualizada para as seguintes versões:

    • Slurm: 2024-11-22.

SageMaker HyperPod Lançamentos da AMI para o Slurm: 15 de novembro de 2024

Atualizações gerais de AMI

  • Pacote libnvidia-nscq-xxx mais recente instalado.

SageMaker HyperPod DLAMI para suporte ao Slurm

Deep Learning Slurm AMI
  • Driver da NVIDIA: 550.127.05

  • Driver do EFA: 2.13.0-1

  • Instalou a versão mais recente do AWS Neuron SDK

    • aws-neuronx-collectives: v2.22.33.0-d2128d1aa

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod Lançamentos da AMI para o Slurm: 11 de novembro de 2024

Atualizações gerais de AMI

  • DLAMI SageMaker HyperPod base atualizada para a seguinte versão:

    • Slurm: 2024-10-23.

SageMaker HyperPod Lançamentos da AMI para o Slurm: 21 de outubro de 2024

Atualizações gerais de AMI

  • DLAMI SageMaker HyperPod base atualizada para as seguintes versões:

    • Slurm: 2024-09-27.

SageMaker HyperPod Lançamentos da AMI para o Slurm: 10 de setembro de 2024

SageMaker HyperPod DLAMI para suporte ao Slurm

Deep Learning Slurm AMI
  • Instalado o driver NVIDIA v550.90.07

  • Instalado o driver EFA v2.10

  • Instalou a versão mais recente do AWS Neuron SDK

    • aws-neuronx-collectives: v2.21.46.0

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod Lançamentos da AMI para o Slurm: 14 de março de 2024

HyperPod Patch de software DLAMI para Slurm

  • Slurm atualizado para v23.11.1

  • Foi adicionado o Open PMIx v4.2.6 para habilitar o Slurm com. PMIx

  • Desenvolvido com base na AWSAMI de aprendizado profundo de base GPU (Ubuntu 20.04), lançada em 26/10/2023.

  • Uma lista completa dos pacotes pré-instalados nesta HyperPod DLAMI, além da AMI básica

    • Slurm: v23.11.1

    • Aberto PMIx : v4.2.6

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • SageMaker HyperPod pacotes de software para oferecer suporte a recursos como verificação de integridade do cluster e retomada automática

Etapas de atualização

  • Execute o comando a seguir para chamar a UpdateClusterSoftwareAPI e atualizar seus HyperPod clusters existentes com a HyperPod DLAMI mais recente. Para obter mais instruções, consulte Atualizar o software da SageMaker HyperPod plataforma de um cluster.

    Importante

    Faça backup do seu trabalho antes de executar essa API. O processo de aplicação de patches substitui o volume raiz pela AMI atualizada, o que significa que seus dados anteriores armazenados no volume raiz da instância serão perdidos. Certifique-se de fazer backup dos dados do volume raiz da instância no Amazon S3 ou no Amazon FSx for Lustre. Para obter mais informações, consulte Use o script de backup fornecido pelo SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    nota

    Observe que você deve executar o AWS CLI comando para atualizar seu HyperPod cluster. A atualização do HyperPod software por meio da interface do SageMaker HyperPod console não está disponível no momento.

SageMaker HyperPod Lançamento da AMI para Slurm: 29 de novembro de 2023

HyperPod Patch de software DLAMI para Slurm

A equipe HyperPod de serviço distribui patches de software por meio deSageMaker HyperPod DLAMI. Veja os detalhes a seguir sobre o HyperPod DLAMI mais recente.

  • Desenvolvido com base na AWSAMI de aprendizado profundo de base GPU (Ubuntu 20.04), lançada em 18/10/2023

  • Uma lista completa dos pacotes pré-instalados nesta HyperPod DLAMI, além da AMI básica

    • Slurm: v23.02.3

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • SageMaker HyperPod pacotes de software para oferecer suporte a recursos como verificação de integridade do cluster e retomada automática