As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
SageMaker HyperPod Lançamentos da AMI para o Slurm
As notas de lançamento a seguir acompanham as atualizações mais recentes dos lançamentos da Amazon SageMaker HyperPod AMI para orquestração do Slurm. Eles HyperPod AMIs são baseados no AWS Deep Learning Base GPU AMI (Ubuntu 22.04
nota
Para atualizar os HyperPod clusters existentes com a DLAMI mais recente, consulte. Atualizar o software da SageMaker HyperPod plataforma de um cluster
SageMaker HyperPod Lançamentos da AMI para o Slurm: 13 de maio de 2025
A Amazon SageMaker HyperPod lançou uma AMI atualizada que suporta o Ubuntu 22.04 LTS para clusters Slurm. AWS AMIs atualiza regularmente para garantir que você tenha acesso à pilha de software mais atual. A atualização para a AMI mais recente fornece segurança aprimorada por meio de atualizações abrangentes de pacotes, melhor desempenho e estabilidade para suas cargas de trabalho e compatibilidade com novos tipos de instância e recursos mais recentes do kernel.
Importante
A atualização do Ubuntu 20.04 LTS para o Ubuntu 22.04 LTS introduz mudanças que podem afetar a compatibilidade com o software e as configurações projetadas para o Ubuntu 20.04.
Nesta nota de lançamento, você verá:
Principais atualizações na AMI do Ubuntu 22.04
A tabela a seguir lista as versões dos componentes da AMI Ubuntu 22.04 em comparação com a AMI anterior.
Componente | Versão anterior | Versão atualizada |
---|---|---|
Sistema operacional Ubuntu |
20,04 LITROS |
22.04 LTS |
Slurm |
24.11 |
24.11 (inalterado) |
Python |
3.8 (padrão) |
3.10 (padrão) |
Adaptador Elastic Fabric (EFA) na Amazon FSx |
Não compatível |
Compatível |
Kernel Linux |
5.15 |
6.8 |
Biblioteca GNU C (glibc) |
2.31 |
2,35 |
Coleção de compiladores GNU (GCC) |
9.4.0 |
11.4.0 |
libc6 |
≤ 2,31 |
≥ 2,35 suportado |
Network File System (NFS) |
1:1.3 .4 |
1:2.6.1 |
nota
Embora a versão do Slurm (24.11) permaneça inalterada, as atualizações subjacentes do sistema operacional e da biblioteca nessa AMI podem afetar o comportamento do sistema e a compatibilidade da carga de trabalho. Você deve testar suas cargas de trabalho antes de atualizar os clusters de produção.
Atualizando para a AMI do Ubuntu 22.04
Antes de atualizar seu cluster para a AMI do Ubuntu 22.04, conclua estas etapas de preparação e analise os requisitos de atualização. Para solucionar falhas de atualização, consulteSolução de problemas de falhas de atualização.
Analise a compatibilidade com Python
A AMI do Ubuntu 22.04 usa o Python 3.10 como a versão padrão, atualizada do Python 3.8. Embora o Python 3.10 mantenha a compatibilidade com a maioria dos códigos do Python 3.8, você deve testar suas cargas de trabalho existentes antes da atualização. Se suas cargas de trabalho exigirem o Python 3.8, você poderá instalá-lo usando o seguinte comando em seu script de ciclo de vida:
yum install python-3.8
Antes de atualizar seu cluster, faça o seguinte:
-
Teste a compatibilidade do seu código com o Python 3.10.
-
Verifique se seus scripts de ciclo de vida funcionam no novo ambiente.
-
Verifique se todas as dependências são compatíveis com a nova versão do Python.
-
Se você criou seu HyperPod cluster copiando o script de ciclo de vida padrão de GitHub, adicione o seguinte comando ao seu
setup_mariadb_accounting.sh
arquivo antes de atualizar para o Ubuntu 22. Para ver o script completo, consulte setup_mariadb_accounting.sh em GitHub. apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
Atualize seu cluster Slurm
Você pode atualizar seu cluster Slurm para usar a nova AMI de duas maneiras:
-
Crie um novo cluster usando a
CreateCluster
API. -
Atualize o software de um cluster existente usando a
UpdateClusterSoftware
API.
Configurações validadas
AWS testou uma ampla variedade de cargas de trabalho de treinamento distribuídas e recursos de infraestrutura nas instâncias G5, G6, G6e, P4d, P5 e Trn1, incluindo:
-
Treinamento distribuído com PyTorch (por exemplo, FSDP, LLa MA NeMo, MNIST).
-
Teste acelerador em todos os tipos de instância com Nvidia (série P/G) e AWS Neuron (Trn1).
-
Recursos de resiliência que incluem retomada automática e verificações de saúde aprofundadas.
Tempo de inatividade e disponibilidade do cluster
Durante o processo de atualização, o cluster ficará indisponível. Para minimizar a interrupção, faça o seguinte:
-
Teste o processo de upgrade em clusters menores.
-
Crie pontos de verificação antes da atualização e reinicie as cargas de trabalho de treinamento dos pontos de verificação existentes após a conclusão da atualização.
Solução de problemas de falhas de atualização
Quando uma atualização falhar, primeiro determine se a falha está relacionada aos scripts do ciclo de vida. Esses scripts geralmente falham devido a erros de sintaxe, dependências ausentes ou configurações incorretas.
Para investigar falhas relacionadas aos scripts de ciclo de vida, verifique CloudWatch os registros. Todos os SageMaker HyperPod eventos e registros são armazenados no grupo de registros:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]
. Veja especificamente o fluxo de registrosLifecycleConfig/[instance-group-name]/[instance-id]
, que fornece informações detalhadas sobre quaisquer erros durante a execução do script.
SageMaker HyperPod Lançamentos da AMI para o Slurm: 07 de maio de 2025
O Amazon SageMaker HyperPod for Slurm lançou uma grande atualização da versão do sistema operacional para o Ubuntu 22.04 (do Ubuntu 20.04 anterior). Verifique o DLAMI Ubuntu 22.04 (notas de lançamentoDeep Learning Base OSS
Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503
Principais atualizações de pacotes:
-
Ubuntu 22.04 LTS (a partir de 20.04)
-
Versão Python:
-
O Python 3.10 agora é a versão padrão do Python no Slurm AMI Ubuntu 22.04
-
Essa atualização fornece acesso aos recursos mais recentes, melhorias de desempenho e correções de erros introduzidos no Python 3.10
-
-
Support for EFA em FSx
-
Novo Kernel Linux versão 6.8 (atualizado a partir da 5.15)
-
Versão Glibc: 2.35 (atualizada a partir da 2.31)
-
Versão do GCC: 11.4.0 (atualizado a partir da 9.4.0)
-
Suporte à versão libc6 mais recente (da versão libc6 <= 2.31)
-
Versão do NFS: 1:2.6 .1 (atualizado a partir de 1:1.3 .4)
SageMaker HyperPod Lançamentos da AMI para o Slurm: 28 de abril de 2025
Melhorias para o Slurm
-
Driver NVIDIA atualizado da versão 550.144.03 para 550.163.01. Essa atualização visa abordar vulnerabilidades e exposições comuns (CVEs) presentes no Boletim de Segurança do NVIDIA GPU Display
de abril de 2025.
Amazon SageMaker HyperPod DLAMI para suporte ao Slurm
SageMaker HyperPod Lançamentos da AMI para o Slurm: 18 de fevereiro de 2025
Melhorias para o Slurm
-
Versão atualizada do Slurm para 24.11.
-
Versão atualizada do Elastic Fabric Adapter (EFA) de 1.37.0 para 1.38.0.
-
O EFA agora inclui o plug-in AWS OFI NCCL. Você pode encontrar esse plug-in no
/opt/amazon/ofi-nccl
diretório, em vez do/opt/aws-ofi-nccl/
local original. Se você precisar atualizar sua variável deLD_LIBRARY_PATH
ambiente, certifique-se de modificar o caminho para apontar para o novo/opt/amazon/ofi-nccl
local do plug-in OFI NCCL. -
O pacote emacs foi removido deles. DLAMIs Você pode instalar o emacs a partir do GNU emac.
Amazon SageMaker HyperPod DLAMI para suporte ao Slurm
SageMaker HyperPod Lançamentos da AMI para o Slurm: 21 de dezembro de 2024
SageMaker HyperPod DLAMI para suporte ao Slurm
SageMaker HyperPod Lançamentos da AMI para o Slurm: 24 de novembro de 2024
Atualizações gerais da AMI
-
Lançado na região
MEL
(Melbourne). -
DLAMI SageMaker HyperPod base atualizada para as seguintes versões:
-
Slurm: 2024-11-22.
-
SageMaker HyperPod Lançamentos da AMI para o Slurm: 15 de novembro de 2024
Atualizações gerais da AMI
-
libnvidia-nscq-xxx
Pacote mais recente instalado.
SageMaker HyperPod DLAMI para suporte ao Slurm
SageMaker HyperPod Lançamentos da AMI para o Slurm: 11 de novembro de 2024
Atualizações gerais da AMI
-
DLAMI SageMaker HyperPod base atualizada para a seguinte versão:
-
Slurm: 2024-10-23.
-
SageMaker HyperPod Lançamentos da AMI para o Slurm: 21 de outubro de 2024
Atualizações gerais da AMI
-
DLAMI SageMaker HyperPod base atualizada para as seguintes versões:
-
Slurm: 2024-09-27.
-
SageMaker HyperPod Lançamentos da AMI para o Slurm: 10 de setembro de 2024
SageMaker HyperPod DLAMI para suporte ao Slurm
SageMaker HyperPod Lançamentos da AMI para o Slurm: 14 de março de 2024
HyperPod Patch de software DLAMI para Slurm
-
Slurm
atualizado para v23.11.1 -
Foi adicionado o Open PMIx
v4.2.6 para habilitar o Slurm com. PMIx -
Desenvolvido com base na AWS AMI de aprendizado profundo de base GPU (Ubuntu 20.04)
, lançada em 26/10/2023. -
Uma lista completa dos pacotes pré-instalados nesta HyperPod DLAMI, além da AMI básica
-
Slurm
: v23.11.1 -
Aberto PMIx
: v4.2.6 -
Munge: v0.5.15
-
aws-neuronx-dkms
: v2.* -
aws-neuronx-collectives
: v2.* -
aws-neuronx-runtime-lib
: v2.* -
aws-neuronx-tools
: v2.* -
SageMaker HyperPod pacotes de software para oferecer suporte a recursos como verificação de integridade do cluster e retomada automática
-
Etapas de atualização
-
Execute o comando a seguir para chamar a UpdateClusterSoftwareAPI e atualizar seus HyperPod clusters existentes com a HyperPod DLAMI mais recente. Para obter mais instruções, consulte Atualizar o software da SageMaker HyperPod plataforma de um cluster.
Importante
Faça backup do seu trabalho antes de executar essa API. O processo de aplicação de patches substitui o volume raiz pela AMI atualizada, o que significa que seus dados anteriores armazenados no volume raiz da instância serão perdidos. Certifique-se de fazer backup dos dados do volume raiz da instância no Amazon S3 ou no Amazon FSx for Lustre. Para obter mais informações, consulte Use o script de backup fornecido pelo SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
nota
Observe que você deve executar o AWS CLI comando para atualizar seu HyperPod cluster. A atualização do HyperPod software por meio da interface do SageMaker HyperPod console não está disponível no momento.
SageMaker HyperPod Lançamento da AMI para Slurm: 29 de novembro de 2023
HyperPod Patch de software DLAMI para Slurm
A equipe HyperPod de serviço distribui patches de software por meio deSageMaker HyperPod DLAMI. Veja os detalhes a seguir sobre o HyperPod DLAMI mais recente.
-
Desenvolvido com base na AWS AMI de aprendizado profundo de base GPU (Ubuntu 20.04)
, lançada em 18/10/2023 -
Uma lista completa dos pacotes pré-instalados nesta HyperPod DLAMI, além da AMI básica
-
Munge: v0.5.15
-
aws-neuronx-dkms
: v2.* -
aws-neuronx-collectives
: v2.* -
aws-neuronx-runtime-lib
: v2.* -
aws-neuronx-tools
: v2.* -
SageMaker HyperPod pacotes de software para oferecer suporte a recursos como verificação de integridade do cluster e retomada automática