SageMaker HyperPod Lançamentos da AMI para o Slurm - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

SageMaker HyperPod Lançamentos da AMI para o Slurm

As notas de lançamento a seguir acompanham as atualizações mais recentes dos lançamentos da Amazon SageMaker HyperPod AMI para orquestração do Slurm. Eles HyperPod AMIs são baseados no AWS Deep Learning Base GPU AMI (Ubuntu 22.04). A equipe HyperPod de serviço distribui patches de software por meio deSageMaker HyperPod DLAMI. Para versões de HyperPod AMI para orquestração do Amazon EKS, consulte. SageMaker HyperPod Lançamentos da AMI para o Amazon EKS Para obter informações sobre os lançamentos de SageMaker HyperPod recursos da Amazon, consulteNotas SageMaker HyperPod de lançamento da Amazon.

nota

Para atualizar os HyperPod clusters existentes com a DLAMI mais recente, consulte. Atualizar o software da SageMaker HyperPod plataforma de um cluster

SageMaker HyperPod Lançamentos da AMI para o Slurm: 13 de maio de 2025

A Amazon SageMaker HyperPod lançou uma AMI atualizada que suporta o Ubuntu 22.04 LTS para clusters Slurm. AWS AMIs atualiza regularmente para garantir que você tenha acesso à pilha de software mais atual. A atualização para a AMI mais recente fornece segurança aprimorada por meio de atualizações abrangentes de pacotes, melhor desempenho e estabilidade para suas cargas de trabalho e compatibilidade com novos tipos de instância e recursos mais recentes do kernel.

Importante

A atualização do Ubuntu 20.04 LTS para o Ubuntu 22.04 LTS introduz mudanças que podem afetar a compatibilidade com o software e as configurações projetadas para o Ubuntu 20.04.

Principais atualizações na AMI do Ubuntu 22.04

A tabela a seguir lista as versões dos componentes da AMI Ubuntu 22.04 em comparação com a AMI anterior.

Versões de componentes da AMI Ubuntu 22.04 em comparação com a AMI anterior
Componente Versão anterior Versão atualizada

Sistema operacional Ubuntu

20,04 LITROS

22.04 LTS

Slurm

24.11

24.11 (inalterado)

Python

3.8 (padrão)

3.10 (padrão)

Adaptador Elastic Fabric (EFA) na Amazon FSx

Não compatível

Compatível

Kernel Linux

5.15

6.8

Biblioteca GNU C (glibc)

2.31

2,35

Coleção de compiladores GNU (GCC)

9.4.0

11.4.0

libc6

≤ 2,31

≥ 2,35 suportado

Network File System (NFS)

1:1.3 .4

1:2.6.1

nota

Embora a versão do Slurm (24.11) permaneça inalterada, as atualizações subjacentes do sistema operacional e da biblioteca nessa AMI podem afetar o comportamento do sistema e a compatibilidade da carga de trabalho. Você deve testar suas cargas de trabalho antes de atualizar os clusters de produção.

Atualizando para a AMI do Ubuntu 22.04

Antes de atualizar seu cluster para a AMI do Ubuntu 22.04, conclua estas etapas de preparação e analise os requisitos de atualização. Para solucionar falhas de atualização, consulteSolução de problemas de falhas de atualização.

Analise a compatibilidade com Python

A AMI do Ubuntu 22.04 usa o Python 3.10 como a versão padrão, atualizada do Python 3.8. Embora o Python 3.10 mantenha a compatibilidade com a maioria dos códigos do Python 3.8, você deve testar suas cargas de trabalho existentes antes da atualização. Se suas cargas de trabalho exigirem o Python 3.8, você poderá instalá-lo usando o seguinte comando em seu script de ciclo de vida:

yum install python-3.8

Antes de atualizar seu cluster, faça o seguinte:

  1. Teste a compatibilidade do seu código com o Python 3.10.

  2. Verifique se seus scripts de ciclo de vida funcionam no novo ambiente.

  3. Verifique se todas as dependências são compatíveis com a nova versão do Python.

  4. Se você criou seu HyperPod cluster copiando o script de ciclo de vida padrão de GitHub, adicione o seguinte comando ao seu setup_mariadb_accounting.sh arquivo antes de atualizar para o Ubuntu 22. Para ver o script completo, consulte setup_mariadb_accounting.sh em GitHub.

    apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg

Atualize seu cluster Slurm

Você pode atualizar seu cluster Slurm para usar a nova AMI de duas maneiras:

  1. Crie um novo cluster usando a CreateClusterAPI.

  2. Atualize o software de um cluster existente usando a UpdateClusterSoftwareAPI.

Configurações validadas

AWS testou uma ampla variedade de cargas de trabalho de treinamento distribuídas e recursos de infraestrutura nas instâncias G5, G6, G6e, P4d, P5 e Trn1, incluindo:

  • Treinamento distribuído com PyTorch (por exemplo, FSDP, LLa MA NeMo, MNIST).

  • Teste acelerador em todos os tipos de instância com Nvidia (série P/G) e AWS Neuron (Trn1).

  • Recursos de resiliência que incluem retomada automática e verificações de saúde aprofundadas.

Tempo de inatividade e disponibilidade do cluster

Durante o processo de atualização, o cluster ficará indisponível. Para minimizar a interrupção, faça o seguinte:

  • Teste o processo de upgrade em clusters menores.

  • Crie pontos de verificação antes da atualização e reinicie as cargas de trabalho de treinamento dos pontos de verificação existentes após a conclusão da atualização.

Solução de problemas de falhas de atualização

Quando uma atualização falhar, primeiro determine se a falha está relacionada aos scripts do ciclo de vida. Esses scripts geralmente falham devido a erros de sintaxe, dependências ausentes ou configurações incorretas.

Para investigar falhas relacionadas aos scripts de ciclo de vida, verifique CloudWatch os registros. Todos os SageMaker HyperPod eventos e registros são armazenados no grupo de registros:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Veja especificamente o fluxo de registrosLifecycleConfig/[instance-group-name]/[instance-id], que fornece informações detalhadas sobre quaisquer erros durante a execução do script.

Se a falha do upgrade não estiver relacionada aos scripts do ciclo de vida, colete informações relevantes, incluindo o ARN do cluster, os registros de erros e os registros de data e hora, e entre em contato com o suporte para obter mais assistência.AWS

SageMaker HyperPod Lançamentos da AMI para o Slurm: 07 de maio de 2025

O Amazon SageMaker HyperPod for Slurm lançou uma grande atualização da versão do sistema operacional para o Ubuntu 22.04 (do Ubuntu 20.04 anterior). Verifique o DLAMI Ubuntu 22.04 (notas de lançamento) para obter mais informações:. Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503

Principais atualizações de pacotes:

  • Ubuntu 22.04 LTS (a partir de 20.04)

  • Versão Python:

    • O Python 3.10 agora é a versão padrão do Python no Slurm AMI Ubuntu 22.04

    • Essa atualização fornece acesso aos recursos mais recentes, melhorias de desempenho e correções de erros introduzidos no Python 3.10

  • Support for EFA em FSx

  • Novo Kernel Linux versão 6.8 (atualizado a partir da 5.15)

  • Versão Glibc: 2.35 (atualizada a partir da 2.31)

  • Versão do GCC: 11.4.0 (atualizado a partir da 9.4.0)

  • Suporte à versão libc6 mais recente (da versão libc6 <= 2.31)

  • Versão do NFS: 1:2.6 .1 (atualizado a partir de 1:1.3 .4)

SageMaker HyperPod Lançamentos da AMI para o Slurm: 28 de abril de 2025

Melhorias para o Slurm

  • Driver NVIDIA atualizado da versão 550.144.03 para 550.163.01. Essa atualização visa abordar vulnerabilidades e exposições comuns (CVEs) presentes no Boletim de Segurança do NVIDIA GPU Display de abril de 2025.

Amazon SageMaker HyperPod DLAMI para suporte ao Slurm

Installed the latest version of AWS Neuron SDK
  • aws-neuronx-collectives: 2.24.59.0-838c7fc8b

  • aws-neuronx-dkms: 2.20.28.0

  • aws-neuronx-runtime-lib: 2.24.53.0-f239092cc

  • aws-neuronx-tools/desconhecido: 2.22.61.0

SageMaker HyperPod Lançamentos da AMI para o Slurm: 18 de fevereiro de 2025

Melhorias para o Slurm

  • Versão atualizada do Slurm para 24.11.

  • Versão atualizada do Elastic Fabric Adapter (EFA) de 1.37.0 para 1.38.0.

  • O EFA agora inclui o plug-in AWS OFI NCCL. Você pode encontrar esse plug-in no /opt/amazon/ofi-nccl diretório, em vez do /opt/aws-ofi-nccl/ local original. Se você precisar atualizar sua variável de LD_LIBRARY_PATH ambiente, certifique-se de modificar o caminho para apontar para o novo /opt/amazon/ofi-nccl local do plug-in OFI NCCL.

  • O pacote emacs foi removido deles. DLAMIs Você pode instalar o emacs a partir do GNU emac.

Amazon SageMaker HyperPod DLAMI para suporte ao Slurm

Installed the latest version of AWS Neuron SDK 2.19
  • aws-neuronx-collectives/desconhecido: 2.23.135.0-3e70920f2 amd64

  • aws-neuronx-dkms/desconhecido: 2.19.64.0 amd64

  • aws-neuronx-runtime-lib/desconhecido: 2.23.112.0-9b5179492 amd64

  • aws-neuronx-tools/desconhecido: 2.20.204.0 amd64

SageMaker HyperPod Lançamentos da AMI para o Slurm: 21 de dezembro de 2024

SageMaker HyperPod DLAMI para suporte ao Slurm

Deep Learning Slurm AMI
  • Controlador NVIDIA: 550.127.05

  • Controlador EFA: 2.13.0-1

  • Instalou a versão mais recente do AWS Neuron SDK

    • aws-neuronx-collectives: 2.22.3.0

    • aws-neuronx-dkms: 2.18.20.0

    • aws-neuronx-oci-hook: 2.5.8.0

    • aws-neuronx-runtime-lib: 2.22.19.0

    • aws-neuronx-tools: 2.19.0.0

SageMaker HyperPod Lançamentos da AMI para o Slurm: 24 de novembro de 2024

Atualizações gerais da AMI

  • Lançado na região MEL (Melbourne).

  • DLAMI SageMaker HyperPod base atualizada para as seguintes versões:

    • Slurm: 2024-11-22.

SageMaker HyperPod Lançamentos da AMI para o Slurm: 15 de novembro de 2024

Atualizações gerais da AMI

  • libnvidia-nscq-xxxPacote mais recente instalado.

SageMaker HyperPod DLAMI para suporte ao Slurm

Deep Learning Slurm AMI
  • Controlador NVIDIA: 550.127.05

  • Controlador EFA: 2.13.0-1

  • Instalou a versão mais recente do AWS Neuron SDK

    • aws-neuronx-collectives: v2.22.33.0-d2128d1aa

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod Lançamentos da AMI para o Slurm: 11 de novembro de 2024

Atualizações gerais da AMI

  • DLAMI SageMaker HyperPod base atualizada para a seguinte versão:

    • Slurm: 2024-10-23.

SageMaker HyperPod Lançamentos da AMI para o Slurm: 21 de outubro de 2024

Atualizações gerais da AMI

  • DLAMI SageMaker HyperPod base atualizada para as seguintes versões:

    • Slurm: 2024-09-27.

SageMaker HyperPod Lançamentos da AMI para o Slurm: 10 de setembro de 2024

SageMaker HyperPod DLAMI para suporte ao Slurm

Deep Learning Slurm AMI
  • Instalado o driver NVIDIA v550.90.07

  • Instalado o driver EFA v2.10

  • Instalou a versão mais recente do AWS Neuron SDK

    • aws-neuronx-collectives: v2.21.46.0

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod Lançamentos da AMI para o Slurm: 14 de março de 2024

HyperPod Patch de software DLAMI para Slurm

  • Slurm atualizado para v23.11.1

  • Foi adicionado o Open PMIx v4.2.6 para habilitar o Slurm com. PMIx

  • Desenvolvido com base na AWS AMI de aprendizado profundo de base GPU (Ubuntu 20.04), lançada em 26/10/2023.

  • Uma lista completa dos pacotes pré-instalados nesta HyperPod DLAMI, além da AMI básica

    • Slurm: v23.11.1

    • Aberto PMIx : v4.2.6

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • SageMaker HyperPod pacotes de software para oferecer suporte a recursos como verificação de integridade do cluster e retomada automática

Etapas de atualização

  • Execute o comando a seguir para chamar a UpdateClusterSoftwareAPI e atualizar seus HyperPod clusters existentes com a HyperPod DLAMI mais recente. Para obter mais instruções, consulte Atualizar o software da SageMaker HyperPod plataforma de um cluster.

    Importante

    Faça backup do seu trabalho antes de executar essa API. O processo de aplicação de patches substitui o volume raiz pela AMI atualizada, o que significa que seus dados anteriores armazenados no volume raiz da instância serão perdidos. Certifique-se de fazer backup dos dados do volume raiz da instância no Amazon S3 ou no Amazon FSx for Lustre. Para obter mais informações, consulte Use o script de backup fornecido pelo SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    nota

    Observe que você deve executar o AWS CLI comando para atualizar seu HyperPod cluster. A atualização do HyperPod software por meio da interface do SageMaker HyperPod console não está disponível no momento.

SageMaker HyperPod Lançamento da AMI para Slurm: 29 de novembro de 2023

HyperPod Patch de software DLAMI para Slurm

A equipe HyperPod de serviço distribui patches de software por meio deSageMaker HyperPod DLAMI. Veja os detalhes a seguir sobre o HyperPod DLAMI mais recente.

  • Desenvolvido com base na AWS AMI de aprendizado profundo de base GPU (Ubuntu 20.04), lançada em 18/10/2023

  • Uma lista completa dos pacotes pré-instalados nesta HyperPod DLAMI, além da AMI básica

    • Slurm: v23.02.3

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • SageMaker HyperPod pacotes de software para oferecer suporte a recursos como verificação de integridade do cluster e retomada automática