As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
SageMaker HyperPod Lançamentos da AMI para o Slurm
As notas de lançamento a seguir acompanham as atualizações mais recentes dos lançamentos da Amazon SageMaker HyperPod AMI para orquestração do Slurm. Eles HyperPod AMIs são baseados no AWSDeep Learning Base GPU AMI (Ubuntu 22.04
nota
Para atualizar os HyperPod clusters existentes com a DLAMI mais recente, consulte. Atualizar o software da SageMaker HyperPod plataforma de um cluster
SageMaker HyperPod Lançamentos da AMI para o Slurm: 22 de novembro de 2025
Atualizações gerais de AMI
-
Atualizações lançadas para SageMaker HyperPod AMI for Slurm, versões 24.11.
SageMaker HyperPod DLAMI para suporte ao Slurm
Esta versão inclui as seguintes alterações:
SageMaker HyperPod notas de lançamento: 07 de novembro de 2025
A AMI inclui o seguinte:
-
CompatívelAWS service (Serviço da AWS): Amazon EC2
-
Sistema operacional: Ubuntu 22.04
-
Arquitetura de computação: ARM64
-
Pacotes atualizados: NVIDIA Driver: 580.95.05
-
Versões CUDA: cuda-12.6, cuda-12.8, cuda-12.9, cuda-13.0
-
Correções de segurança: Runc Security patch
SageMaker HyperPod notas de lançamento: 29 de setembro de 2025
A AMI inclui o seguinte:
-
CompatívelAWS service (Serviço da AWS): Amazon EC2
-
Sistema operacional: Ubuntu 22.04
-
Arquitetura de computação: ARM64
-
Pacotes atualizados: NVIDIA Driver: 570.172.08
-
Correções de segurança
SageMaker HyperPod notas de lançamento: 12 de agosto de 2025
A AMI inclui o seguinte:
-
CompatívelAWS service (Serviço da AWS): Amazon EC2
-
Sistema operacional: Ubuntu 22.04
-
Arquitetura de computação: ARM64
-
A versão mais recente disponível está instalada para os seguintes pacotes:
-
Kernel Linux: 6.8
-
FSx Lustro
-
Docker
-
AWS CLIv2 em
/usr/bin/aws -
NVIDIA DCGM
-
Nvidia Container Toolkit:
-
Comando de versão:
nvidia-container-cli -V
-
-
Nvidia-docker2:
-
Comando de versão:
nvidia-docker version
-
-
NVIDIA-IMEX: v570.172.08-1
-
-
Driver NVIDIA: 570.158.01
-
Pilha NVIDIA CUDA 12.4, 12,5, 12,6, 12,8:
-
Diretórios de instalação CUDA, NCCL e cuDDN:
/usr/local/cuda-xx.x/-
Exemplo:
/usr/local/cuda-12.8/,/usr/local/cuda-12.8/
-
-
Versão compilada da NCCL:
-
Para o diretório CUDA de 12.4, compilou a versão NCCL 2.22.3+ .4 CUDA12
-
Para o diretório CUDA de 12.5, compilou a versão NCCL 2.22.3+ .5 CUDA12
-
Para o diretório CUDA de 12.6, compilou a versão NCCL 2.24.3+ .6 CUDA12
-
Para o diretório CUDA de 12.8, compilou a versão NCCL 2.27.5+ .8 CUDA12
-
-
CUDA padrão: 12,8
-
PATH
/usr/local/cudaaponta para CUDA 12.8 -
Variáveis de ambiente atualizadas abaixo:
-
LD_LIBRARY_PATHter/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64 -
PATHter/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/ -
Para qualquer versão diferente do CUDA, atualize
LD_LIBRARY_PATHadequadamente.
-
-
-
-
Instalador EFA: 1.42.0
-
Nvidia GDRCopy: 2.5.1
-
AWSO plugin OFI NCCL vem com o instalador EFA
-
Caminhos
/opt/amazon/ofi-nccl/lib/aarch64-linux-gnue/opt/amazon/ofi-nccl/efasão adicionadosLD_LIBRARY_PATHa.
-
-
AWS CLIv2 em
/usr/local/bin/aws2e AWS CLI v1 em/usr/bin/aws -
Tipo de volume do EBS: gp3
-
Python:
/usr/bin/python3.10
SageMaker HyperPod notas de lançamento: 27 de maio de 2025
SageMaker HyperPod libera o seguinte paraOrquestrando SageMaker HyperPod clusters com o Slurm.
Novos recursos e melhorias
-
A AMI base foi atualizada para
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523com os seguintes componentes principais:-
Driver da NVIDIA 570.133.20
-
CUDA: 12.8 (padrão), com compatibilidade com CUDA 12.4-12.6
-
Versão da NCCL: 2.26.5
-
Instalador do EFA: 1.40.0
-
AWSOFI NCCL: 1.14.2-aws
-
-
Pacotes atualizados do Neuron SDK:
-
aws-neuronx-collectives: 2.25.65.0-9858ac9a1 (de 2.24.59.0-838c7fc8b)
-
aws-neuronx-dkms: 2.21.37.0 (a partir de 2.20.28.0)
-
aws-neuronx-runtime-lib: 2.25.57.0-166c7a468 (de 2.24.53.0-f239092cc)
-
aws-neuronx-tools: 2.23.9.0 (a partir de 2.22.61.0)
-
Observações importantes
-
O NVIDIA Container Toolkit 1.17.4 agora desabilitou a montagem de bibliotecas compatíveis com CUDA.
-
Atualização da configuração do EFA de 1.37 para 1.38. Agora o EFA inclui o plug-in AWS OFI NCCL, que está localizado no diretório
/opt/amazon/ofi-nccl, em vez de no caminho original/opt/aws-ofi-nccl/. (Lançamento em 18 de fevereiro de 2025) -
A versão do kernel é fixa para estabilidade e compatibilidade de drivers.
SageMaker HyperPod Lançamentos da AMI para o Slurm: 13 de maio de 2025
A Amazon SageMaker HyperPod lançou uma AMI atualizada que suporta o Ubuntu 22.04 LTS para clusters Slurm. AWS AMIs atualiza regularmente para garantir que você tenha acesso à pilha de software mais atual. A atualização para a AMI mais recente oferece segurança aprimorada por meio de atualizações abrangentes de pacotes, desempenho e estabilidade aprimorados para suas workloads e compatibilidade com novos tipos de instância e os recursos mais recentes do kernel.
Importante
A atualização do Ubuntu 20.04 LTS para o Ubuntu 22.04 LTS introduz mudanças que podem afetar a compatibilidade com o software e as configurações projetadas para o Ubuntu 20.04.
Nesta nota de lançamento, você verá:
Principais atualizações na AMI para o Ubuntu 22.04.
A tabela a seguir lista as versões dos componentes da AMI do Ubuntu 22.04 em comparação com a AMI anterior.
| Componente | Versão anterior | Versão atualizada |
|---|---|---|
|
Sistema operacional Ubuntu |
20.04 LTS |
22.04 LTS |
|
Slurm |
24.11 |
24.11 (inalterado) |
|
Python |
3.8 (padrão) |
3.10 (padrão) |
|
Adaptador Elastic Fabric (EFA) na Amazon FSx |
Não compatível |
Compatível |
|
Kernel do Linux |
5.15 |
6.8 |
|
Biblioteca GNU C (glibc) |
2.31 |
2,35 |
|
Coleção de compiladores GNU (GCC) |
9.4.0 |
11.4.0 |
|
libc6 |
≤ 2.31 |
Compatível com ≥ 2.35 |
|
Network File System (NFS) |
1:1.3.4 |
1:2.6.1 |
nota
Embora a versão do Slurm (24.11) permaneça inalterada, as atualizações subjacentes do sistema operacional e da biblioteca nessa AMI podem afetar o comportamento do sistema e a compatibilidade das workloads. Você deve testar suas workloads antes de atualizar os clusters de produção.
Atualização para a AMI do Ubuntu 22.04
Antes de atualizar o cluster para a AMI do Ubuntu 22.04, conclua estas etapas de preparação e analise os requisitos de atualização. Para solucionar falhas de atualização, consulte Solução de problemas de falhas de atualização.
Analisar a compatibilidade com o Python
A AMI do Ubuntu 22.04 usa o Python 3.10 como a versão padrão, atualizada do Python 3.8. Embora o Python 3.10 mantenha a compatibilidade com a maioria dos códigos do Python 3.8, você deve testar suas workloads existentes antes da atualização. Se as workloads exigirem o Python 3.8, você poderá instalá-lo usando o seguinte comando em seu script de ciclo de vida:
yum install python-3.8
Antes de atualizar o cluster, faça o seguinte:
-
Teste a compatibilidade do código com o Python 3.10.
-
Verifique se os scripts de ciclo de vida funcionam no novo ambiente.
-
Verifique se todas as dependências são compatíveis com a nova versão do Python.
-
Se você criou seu HyperPod cluster copiando o script de ciclo de vida padrão de GitHub, adicione o seguinte comando ao seu
setup_mariadb_accounting.sharquivo antes de atualizar para o Ubuntu 22. Para ver o script completo, consulte setup_mariadb_accounting.sh em GitHub. apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
Atualizar o cluster do Slurm
Há duas maneiras de atualizar o cluster do Slurm para usar a nova AMI:
-
Crie um cluster usando a API
CreateCluster. -
Atualize o software de um cluster existente usando a API
UpdateClusterSoftware.
Validar configurações
AWStestou uma ampla variedade de cargas de trabalho de treinamento distribuídas e recursos de infraestrutura nas instâncias G5, G6, G6e, P4d, P5 e Trn1, incluindo:
-
Treinamento distribuído com PyTorch (por exemplo, FSDP, LLa MA NeMo, MNIST).
-
Teste acelerador em todos os tipos de instância com Nvidia (série P/G) e AWS Neuron (Trn1).
-
Recursos de resiliência que incluem retomada automática e verificações de integridade profundas.
Tempo de inatividade e disponibilidade do cluster
Durante o processo de atualização, o cluster não estará disponível. Para minimizar a interrupção, faça o seguinte:
-
Teste o processo de atualização em clusters menores.
-
Crie pontos de verificação antes da atualização e reinicie as workloads de treinamento dos pontos de verificação existentes após a conclusão da atualização.
Solução de problemas de falhas de atualização
Quando uma atualização falhar, primeiro determine se a falha está relacionada aos scripts de ciclo de vida. Esses scripts geralmente falham devido a erros de sintaxe, dependências ausentes ou configurações incorretas.
Para investigar falhas relacionadas aos scripts de ciclo de vida, verifique CloudWatch os registros. Todos os SageMaker HyperPod eventos e registros são armazenados no grupo de registros:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Veja especificamente o fluxo de logs LifecycleConfig/[instance-group-name]/[instance-id], que fornece informações detalhadas sobre quaisquer erros durante a execução do script.
Se a falha da atualização não estiver relacionada aos scripts de ciclo de vida, colete informações relevantes, incluindo o ARN do cluster, os logs de erros e os registros de data/hora, e entre em contato com o AWS Support
SageMaker HyperPod Lançamentos da AMI para o Slurm: 07 de maio de 2025
O Amazon SageMaker HyperPod for Slurm lançou uma grande atualização da versão do sistema operacional para o Ubuntu 22.04 (do Ubuntu 20.04 anterior). Verifique a DLAMI do Ubuntu 22.04 (notas de lançamentoDeep Learning Base OSS
Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503.
Principais atualizações de pacotes:
-
Ubuntu 22.04 LTS (a partir da 20.04)
-
Versão do Python:
-
O Python 3.10 agora é a versão padrão do Python na AMI do Slurm do Ubuntu 22.04.
-
Essa atualização oferece acesso aos recursos mais recentes, melhorias de desempenho e correções de erros introduzidos no Python 3.10
-
-
Support for EFA em FSx
-
Novo Kernel do Linux, versão 6.8 (atualizado a partir da 5.15)
-
Versão da Glibc: 2.35 (atualizada a partir da 2.31)
-
Versão do GCC: 11.4.0 (atualizada a partir da 9.4.0)
-
Suporte à versão da libc6 mais recente (da versão da libc6 <= 2.31)
-
Versão do NFS: 1:2.6.1 (atualizado a partir da 1:1.3.4)
SageMaker HyperPod Lançamentos da AMI para o Slurm: 28 de abril de 2025
Melhorias para o Slurm
-
Atualização do driver da NVIDIA da versão 550.144.03 para a 550.163.01. Essa atualização visa abordar vulnerabilidades e exposições comuns (CVEs) presentes no Boletim de Segurança do NVIDIA GPU Display
de abril de 2025.
Amazon SageMaker HyperPod DLAMI para suporte ao Slurm
SageMaker HyperPod Lançamentos da AMI para o Slurm: 18 de fevereiro de 2025
Melhorias para o Slurm
-
Atualização da versão do Slurm para 24.11.
-
Versão atualizada do Elastic Fabric Adapter (EFA) de 1.37.0 para 1.38.0.
-
O EFA agora inclui o plug-in AWS OFI NCCL. É possível encontrar esse plug-in no diretório
/opt/amazon/ofi-nccl, em vez de no local original/opt/aws-ofi-nccl/. Se você precisar atualizar sua variável de ambienteLD_LIBRARY_PATH, modifique o caminho para apontar para o novo local/opt/amazon/ofi-nccllocal do plug-in OFI NCCL. -
O pacote emacs foi removido deles. DLAMIs Você pode instalar emacs a partir do GNU Emacs.
Amazon SageMaker HyperPod DLAMI para suporte ao Slurm
SageMaker HyperPod Lançamentos da AMI para o Slurm: 21 de dezembro de 2024
SageMaker HyperPod DLAMI para suporte ao Slurm
SageMaker HyperPod Lançamentos da AMI para o Slurm: 24 de novembro de 2024
Atualizações gerais de AMI
-
Lançadas na região
MEL(Melbourne). -
DLAMI SageMaker HyperPod base atualizada para as seguintes versões:
-
Slurm: 2024-11-22.
-
SageMaker HyperPod Lançamentos da AMI para o Slurm: 15 de novembro de 2024
Atualizações gerais de AMI
-
Pacote
libnvidia-nscq-xxxmais recente instalado.
SageMaker HyperPod DLAMI para suporte ao Slurm
SageMaker HyperPod Lançamentos da AMI para o Slurm: 11 de novembro de 2024
Atualizações gerais de AMI
-
DLAMI SageMaker HyperPod base atualizada para a seguinte versão:
-
Slurm: 2024-10-23.
-
SageMaker HyperPod Lançamentos da AMI para o Slurm: 21 de outubro de 2024
Atualizações gerais de AMI
-
DLAMI SageMaker HyperPod base atualizada para as seguintes versões:
-
Slurm: 2024-09-27.
-
SageMaker HyperPod Lançamentos da AMI para o Slurm: 10 de setembro de 2024
SageMaker HyperPod DLAMI para suporte ao Slurm
SageMaker HyperPod Lançamentos da AMI para o Slurm: 14 de março de 2024
HyperPod Patch de software DLAMI para Slurm
-
Slurm
atualizado para v23.11.1 -
Foi adicionado o Open PMIx
v4.2.6 para habilitar o Slurm com. PMIx -
Desenvolvido com base na AWSAMI de aprendizado profundo de base GPU (Ubuntu 20.04)
, lançada em 26/10/2023. -
Uma lista completa dos pacotes pré-instalados nesta HyperPod DLAMI, além da AMI básica
-
Slurm
: v23.11.1 -
Aberto PMIx
: v4.2.6 -
Munge: v0.5.15
-
aws-neuronx-dkms: v2.* -
aws-neuronx-collectives: v2.* -
aws-neuronx-runtime-lib: v2.* -
aws-neuronx-tools: v2.* -
SageMaker HyperPod pacotes de software para oferecer suporte a recursos como verificação de integridade do cluster e retomada automática
-
Etapas de atualização
-
Execute o comando a seguir para chamar a UpdateClusterSoftwareAPI e atualizar seus HyperPod clusters existentes com a HyperPod DLAMI mais recente. Para obter mais instruções, consulte Atualizar o software da SageMaker HyperPod plataforma de um cluster.
Importante
Faça backup do seu trabalho antes de executar essa API. O processo de aplicação de patches substitui o volume raiz pela AMI atualizada, o que significa que seus dados anteriores armazenados no volume raiz da instância serão perdidos. Certifique-se de fazer backup dos dados do volume raiz da instância no Amazon S3 ou no Amazon FSx for Lustre. Para obter mais informações, consulte Use o script de backup fornecido pelo SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-nameyour-cluster-namenota
Observe que você deve executar o AWS CLI comando para atualizar seu HyperPod cluster. A atualização do HyperPod software por meio da interface do SageMaker HyperPod console não está disponível no momento.
SageMaker HyperPod Lançamento da AMI para Slurm: 29 de novembro de 2023
HyperPod Patch de software DLAMI para Slurm
A equipe HyperPod de serviço distribui patches de software por meio deSageMaker HyperPod DLAMI. Veja os detalhes a seguir sobre o HyperPod DLAMI mais recente.
-
Desenvolvido com base na AWSAMI de aprendizado profundo de base GPU (Ubuntu 20.04)
, lançada em 18/10/2023 -
Uma lista completa dos pacotes pré-instalados nesta HyperPod DLAMI, além da AMI básica
-
Munge: v0.5.15
-
aws-neuronx-dkms: v2.* -
aws-neuronx-collectives: v2.* -
aws-neuronx-runtime-lib: v2.* -
aws-neuronx-tools: v2.* -
SageMaker HyperPod pacotes de software para oferecer suporte a recursos como verificação de integridade do cluster e retomada automática