Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS - Amazon SageMaker AI

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS

As notas de lançamento a seguir acompanham as atualizações mais recentes das versões de AMI do Amazon SageMaker HyperPod para orquestração do Amazon EKS. Cada nota inclui uma lista resumida dos pacotes pré-instalados ou pré-configurados nas DLAMIs do SageMaker HyperPod para compatibilidade com o Amazon EKS. Cada DLAMI é criada no Amazon Linux 2 (AL2) e é compatível com uma versão específica do Kubernetes. Para versões de DLAMI do HyperPod DLAMI para orquestração do Slurm, consulte Lançamentos de AMI do SageMaker HyperPod para o Slurm. Para ter mais informações sobre lançamentos de recursos do Amazon SageMaker HyperPod, consulte Notas da versão do Amazon SageMaker HyperPod.

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 25 de agosto de 2025

Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS

Esta versão inclui as seguintes alterações:

Kubernetes v1.28

NVIDIA SMI:

  • Versão do driver da NVIDIA: 570.172.08

  • Versão do CUDA: 12.8

Pacotes adicionados:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Pacotes atualizados:

  • gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

Pacotes removidos:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Repositório alterado:

  • libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

Kubernetes v1.29

NVIDIA SMI:

  • Versão do driver da NVIDIA: 570.172.08

  • Versão do CUDA: 12.8

Pacotes adicionados:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Pacotes atualizados:

  • gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

Pacotes removidos:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Repositório alterado:

  • libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

Kubernetes v1.30

NVIDIA SMI:

  • Versão do driver da NVIDIA: 570.172.08

  • Versão do CUDA: 12.8

Pacotes adicionados:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Pacotes atualizados:

  • aws-neuronx-dkms.noarch: 2.22.2.0-dkms → 2.23.9.0-dkms

  • efa.x86_64: 2.15.3-1.amzn2 → 2.17.2-1.amzn2

  • efa-nv-peermem.x86_64: 1.2.1-1.amzn2 → 1.2.2-1.amzn2

  • gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • ibacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • infiniband-diags.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libfabric-aws.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2

  • libfabric-aws-devel.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2

  • libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • libibumad.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libnccl-ofi.x86_64: 1.15.0-1.amzn2 → 1.16.2-1.amzn2

  • librdmacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • librdmacm-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

  • rdma-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • rdma-core-devel.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

Pacotes removidos:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Repositório alterado:

  • libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

Kubernetes v1.31

NVIDIA SMI:

  • Versão do driver da NVIDIA: 570.172.08

  • Versão do CUDA: 12.8

Pacotes adicionados:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Pacotes atualizados:

  • gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

Pacotes removidos:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Repositório alterado:

  • libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

Kubernetes v1.32

NVIDIA SMI:

  • Versão do driver da NVIDIA: 570.172.08

  • Versão do CUDA: 12.8

Pacotes adicionados:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Pacotes atualizados:

  • aws-neuronx-dkms.noarch: 2.22.2.0-dkms → 2.23.9.0-dkms

  • efa.x86_64: 2.15.3-1.amzn2 → 2.17.2-1.amzn2

  • efa-nv-peermem.x86_64: 1.2.1-1.amzn2 → 1.2.2-1.amzn2

  • gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • ibacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • infiniband-diags.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libfabric-aws.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2

  • libfabric-aws-devel.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2

  • libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • libibumad.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libnccl-ofi.x86_64: 1.15.0-1.amzn2 → 1.16.2-1.amzn2

  • librdmacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • librdmacm-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

  • rdma-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • rdma-core-devel.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

Pacotes removidos:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

Repositório alterado:

  • libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 6 de agosto de 2025

Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS

As AMIs incluem as seguintes atualizações:

K8s v1.28
  • Pacotes do Neuron:

    • aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1

    • aws-neuronx-dkms: 2.23.9.0-dkms

    • aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1

    • aws-neuronx-k8-plugin: 2.27.7.0-1

    • aws-neuronx-k8-scheduler: 2.27.7.0-1

    • aws-neuronx-tools: 2.25.145.0-1

K8s v1.29
  • Pacotes do Neuron:

    • aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1

    • aws-neuronx-dkms: 2.23.9.0-dkms

    • aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1

    • aws-neuronx-k8-plugin: 2.27.7.0-1

    • aws-neuronx-k8-scheduler: 2.27.7.0-1

    • aws-neuronx-tools: 2.25.145.0-1

K8s v1.30
  • Pacotes do Neuron:

    • aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1

    • aws-neuronx-dkms: 2.23.9.0-dkms

    • aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1

    • aws-neuronx-k8-plugin: 2.27.7.0-1

    • aws-neuronx-k8-scheduler: 2.27.7.0-1

    • aws-neuronx-tools: 2.25.145.0-1

K8s v1.31
  • Pacotes do Neuron:

    • aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1

    • aws-neuronx-dkms: 2.23.9.0-dkms

    • aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1

    • aws-neuronx-k8-plugin: 2.27.7.0-1

    • aws-neuronx-k8-scheduler: 2.27.7.0-1

    • aws-neuronx-tools: 2.25.145.0-1

K8s v1.32
  • Pacotes do Neuron:

    • aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1

    • aws-neuronx-dkms: 2.23.9.0-dkms

    • aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1

    • aws-neuronx-k8-plugin: 2.27.7.0-1

    • aws-neuronx-k8-scheduler: 2.27.7.0-1

    • aws-neuronx-tools: 2.25.145.0-1

Importante
  • Deep Learning Base OSS NVIDIA Driver AMI (Amazon Linux 2) versão 70.3

  • Deep Learning Base Proprietary NVIDIA Driver AMI (Amazon Linux 2) versão 68.4

  • Compatibilidade mais recente com o CUDA 12.8

  • Driver da NVIDIA atualizado de 570.158.01 para 570.172.08 para corrigir CVEs presentes no NVIDIA Security Bulletin de julho

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 31 de julho de 2025

O Amazon SageMaker HyperPod agora permite usar uma nova AMI para clusters do Amazon EKS que atualiza o sistema operacional básico para o Amazon Linux 2023. Essa versão oferece várias melhorias do Amazon Linux 2 (AL2). O HyperPod lança novas AMIs regularmente. Por isso, recomendamos que você execute todos os clusters do HyperPod nas versões de AMI mais recentes e seguras para resolver vulnerabilidades e eliminar gradualmente softwares e bibliotecas desatualizados.

Principais atualizações

  • Sistema operacional: Amazon Linux 2023 (atualizado do Amazon Linux 2 ou AL2).

  • Gerenciador de pacotes: o DNF é a ferramenta padrão de gerenciamento de pacotes, substituindo o YUM usado no AL2.

  • Serviço de rede: o systemd-networkd gerencia interfaces de rede, substituindo o ISC dhclient usado no AL2.

  • Kernel do Linux: versão 6.1, atualizada a partir do kernel usado no AL2.

  • Glibc: versão 2.34, atualizada a partir da versão no AL2.

  • GCC: versão 11.5.0, atualizada a partir da versão no AL2.

  • NFS: versão 1:2.6.1, atualizada a partir da versão 1:1.3.4 no AL2.

  • Driver da NVIDIA: versão 570.172.08, uma versão mais recente do driver

  • Python: versão 3.9, que substitui o Python 2.7 usado no AL2.

  • NVMe: versão 1.11.1, uma versão mais recente do driver NVMe.

Antes da atualização

Há algumas questões importantes que você deve saber antes da atualização. Com o AL2023, vários pacotes foram adicionados, atualizados ou removidos em comparação com o AL2. É altamente recomendável testar as aplicações com o AL2023 antes de atualizar os clusters. Para ver uma lista abrangente de todas as alterações de pacote no AL2023, consulte Package changes in Amazon Linux 2023.

A seguir são apresentadas algumas das mudanças significativas entre o AL2 e AL2023:

  • Python 3.10: a atualização mais significativa, além do sistema operacional, é a da versão do Python. Após a atualização, os clusters têm o Python 3.10 como padrão. Embora algumas workloads de treinamento distribuído do Python 3.8 possam ser compatíveis com o Python 3.10, é altamente recomendável testar suas workloads específicas separadamente. Se a migração para o Python 3.10 for difícil, mas você ainda quiser atualizar o cluster para outros novos recursos, é possível instalar uma versão mais antiga do Python usando o comando yum install python-xx.x com scripts de ciclo de vida antes de executar qualquer workload. Teste os scripts de ciclo de vida existentes e o código da aplicação para verificar a compatibilidade.

  • Imposição do runtime da NVIDIA: o AL2023 aplica rigorosamente os requisitos de runtime do contêiner da NVIDIA, fazendo com que contêineres que têm variáveis de ambiente da NVIDIA com codificação rígida (como NVIDIA_VISIBLE_DEVICES: "all") falhem em nós somente da CPU (enquanto o AL2 ignora essas configurações quando não há nenhum driver de GPU). Você pode substituir a imposição NVIDIA_VISIBLE_DEVICES: "void" configurando a especificação do seu pod ou usando imagens somente da CPU.

  • cgroup v2: o AL2023 introduz a hierarquia de grupo de controle unificado de última geração (cgroup v2). A hierarquia cgroup v2 é usada para runtimes de contêiner e também é usada por systemd. Embora o AL2023 ainda inclua códigos que podem fazer o sistema funcionar ao usar cgroup v1, essa configuração não é recomendada.

  • Versões da CNI e do eksctl da Amazon VPC: o AL2023 também exige que a versão da CNI da Amazon VPC seja 1.16.2 ou posterior e que a versão do eksctl seja 0.176.0 ou posterior.

  • EFA no FSx para Lustre: agora é possível usar o EFA no FSx para Lustre, o que permite alcançar um desempenho de aplicação comparável aos clusters on-premises de IA/ML ou de computação de alta performance (HPC) e, ao mesmo tempo, beneficiar-se da escalabilidade, flexibilidade e elasticidade da computação em nuvem.

Além disso, a atualização para o AL2023 requer uma versão mínima 1.0.643.0_1.0.192.0 do Health Monitoring Agent. Conclua o seguinte procedimento para atualizar o Health Monitoring Agent:

  1. Se você usa scripts de ciclo de vida do HyperPod do repositório awsome-distributed-training do GitHub, obtenha a versão mais recente. As versões anteriores não são compatíveis com o AL2023. O novo script de ciclo de vida garante que o containerd use o armazenamento adicional montado para extrair imagens de contêiner no AL2023.

  2. Obtenha a versão mais recente do da CLI do HyperPod no repositório do Git.

  3. Atualize as dependências com o seguinte comando: helm dependencies update helm_chart/HyperPodHelmChart.

  4. Conforme mencionado na Etapa 4 do README do HyperPodHelmChart, execute o seguinte comando para atualizar a versão das dependências em execução no cluster: helm upgrade dependencies helm_chart/HyperPodHelmChart -namespace kube-system.

Workloads que foram testadas em clusters do EKS atualizados

Veja abaixo alguns casos de uso em que a atualização foi testada:

  • Compatibilidade com versões anteriores: tarefas de treinamento distribuído conhecidas que requeiram o uso do PyTorch devem ter compatibilidade retroativa na nova AMI. No entanto, como suas workloads podem depender de bibliotecas específicas do Python ou do Linux, recomendamos testar primeiro em uma escala menor ou em um subconjunto de nós antes de atualizar os clusters maiores.

  • Teste de acelerador: foram testados trabalhos em vários tipos de instância, utilizando aceleradores NVIDIA (para as famílias de instâncias P e G) e aceleradores do AWS Neuron (para instâncias Trn).

Como atualizar a AMI e as workloads correspondentes

É possível atualizar a AMI para a nova AMI usando um dos seguintes métodos:

  • Use a API create-cluster para criar um cluster com a AMI mais recente.

  • Use a API update-cluster-software para atualizar o cluster existente. Observe que essa opção executa novamente qualquer script de ciclo de vida.

O cluster não estará disponível durante o processo de atualização. Recomendamos planejar esse tempo de inatividade e reiniciar a workload de treinamento a partir de um ponto de verificação existente após a conclusão da atualização. Como prática recomendada, sugerimos que você execute testes em um cluster menor antes de atualizar clusters maiores.

Se o comando de atualização falhar, primeiro identifique a causa da falha. Para falhas no script de ciclo de vida, faça as correções necessárias nos scripts e tente novamente. Com relação a quaisquer outros problemas que não possam ser resolvidos, entre em contato com o AWS Support.

Solução de problemas

Use a seção a seguir para obter ajuda sobre como solucionar quaisquer problemas encontrados ao atualizar para o AL2023.

Como faço para corrigir erros, como "nvml error: driver not loaded: unknown", em nós de cluster somente de CPU?

Se os contêineres que funcionavam nos nós de CPU do Amazon EKS no AL2 agora falharem no AL2023, isso significa que sua imagem de contêiner pode ter variáveis de ambiente NVIDIA com codificação rígida. Você pode verificar as variáveis de ambiente com codificação rígida usando o seguinte comando:

docker inspect image:tag | grep -i nvidia

O AL2023 aplica rigorosamente esses requisitos, enquanto o AL2 foi mais tolerante com nós somente de CPU. Uma solução é substituir a imposição do AL2023 definindo determinadas variáveis de ambiente da NVIDIA em sua especificação de pod do Amazon EKS, conforme mostrado no seguinte exemplo:

yaml containers: - name: your-container image: your-image:tag env: - name: NVIDIA_VISIBLE_DEVICES value: "void" - name: NVIDIA_DRIVER_CAPABILITIES value: ""

Também é possível usar imagens de contêiner somente de CPU (como pytorch/pytorch:latest-cpu) ou criar imagens personalizadas sem dependências da NVIDIA.

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 15 de julho de 2025

Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS

As AMIs incluem as seguintes atualizações:

K8s v1.28
  • Driver NVIDIA mais recente: 550.163.01

  • Padrão CUDA: 12.4

  • Instalador do EFA: 1.38.0

  • Pacotes do Neuron:

    • aws-neuronx-dkms.noarch: 2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64: 2.4.4.0-1

    • aws-neuronx-tools.x86_64: 2.18.3.0-1

    • aws-neuron-dkms.noarch: 2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64: 1.9.3.0-1

    • aws-neuron-k8-scheduler.x86_64: 1.9.3.0-1

    • aws-neuron-runtime.x86_64: 1.6.24.0-1

    • aws-neuron-runtime-base.x86_64: 1.6.21.0-1

    • aws-neuron-tools.x86_64: 2.1.4.0-1

    • aws-neuronx-collectives.x86_64: 2.26.43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64: 0.16.2.0-1

    • aws-neuronx-gpsimd-tools.x86_64: 0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64: 2.26.26.0-1

    • aws-neuronx-k8-scheduler.x86_64: 2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64: 2.26.42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86_64: 2.24.54.0-1

    • tensorflow-model-server-neuron.x86_64: 2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64: 2.10.1.2.12.2.0-0

K8s v1.29
  • Versão do driver da NVIDIA: 550.163.01

  • Versão do CUDA: 12.4

  • Instalador do EFA: 1.38.0

  • Pacotes do Neuron:

    • aws-neuronx-dkms.noarch: 2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64: 2.4.4.0-1

    • aws-neuronx-tools.x86_64: 2.18.3.0-1

    • aws-neuron-dkms.noarch: 2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64: 1.9.3.0-1

    • aws-neuron-k8-scheduler.x86_64: 1.9.3.0-1

    • aws-neuron-runtime.x86_64: 1.6.24.0-1

    • aws-neuron-runtime-base.x86_64: 1.6.21.0-1

    • aws-neuron-tools.x86_64: 2.1.4.0-1

    • aws-neuronx-collectives.x86_64: 2.26.43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64: 0.16.2.0-1

    • aws-neuronx-gpsimd-tools.x86_64: 0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64: 2.26.26.0-1

    • aws-neuronx-k8-scheduler.x86_64: 2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64: 2.26.42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86_64: 2.24.54.0-1

    • tensorflow-model-server-neuron.x86_64: 2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64: 2.10.1.2.12.2.0-0

K8s v1.30
  • Versão do driver da NVIDIA: 550.163.01

  • Versão do CUDA: 12.4

  • Versão do instalador do EFA: 1.38.0

  • Pacotes do Neuron:

    • aws-neuronx-dkms.noarch: 2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64: 2.4.4.0-1

    • aws-neuronx-tools.x86_64: 2.18.3.0-1

    • aws-neuron-dkms.noarch: 2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64: 1.9.3.0-1

    • aws-neuron-k8-scheduler.x86_64: 1.9.3.0-1

    • aws-neuron-runtime.x86_64: 1.6.24.0-1

    • aws-neuron-runtime-base.x86_64: 1.6.21.0-1

    • aws-neuron-tools.x86_64: 2.1.4.0-1

    • aws-neuronx-collectives.x86_64: 2.26.43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64: 0.16.2.0-1

    • aws-neuronx-gpsimd-tools.x86_64: 0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64: 2.26.26.0-1

    • aws-neuronx-k8-scheduler.x86_64: 2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64: 2.26.42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86_64: 2.24.54.0-1

    • tensorflow-model-server-neuron.x86_64: 2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64: 2.10.1.2.12.2.0-0

K8s v1.31
  • Versão do driver da NVIDIA: 550.163.01

  • Versão do CUDA: 12.4

  • Versão do instalador do EFA: 1.38.0

  • Pacotes do Neuron:

    • aws-neuronx-dkms.noarch: 2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64: 2.4.4.0-1

    • aws-neuronx-tools.x86_64: 2.18.3.0-1

    • aws-neuron-dkms.noarch: 2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64: 1.9.3.0-1

    • aws-neuron-k8-scheduler.x86_64: 1.9.3.0-1

    • aws-neuron-runtime.x86_64: 1.6.24.0-1

    • aws-neuron-runtime-base.x86_64: 1.6.21.0-1

    • aws-neuron-tools.x86_64: 2.1.4.0-1

    • aws-neuronx-collectives.x86_64: 2.26.43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64: 0.16.2.0-1

    • aws-neuronx-gpsimd-tools.x86_64: 0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64: 2.26.26.0-1

    • aws-neuronx-k8-scheduler.x86_64: 2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64: 2.26.42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86_64: 2.24.54.0-1

    • tensorflow-model-server-neuron.x86_64: 2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64: 2.10.1.2.12.2.0-0

K8s v1.32
  • Versão do driver da NVIDIA: 550.163.01

  • Versão do CUDA: 12.4

  • Versão do instalador do EFA: 1.38.0

  • Pacotes do Neuron:

    • aws-neuronx-dkms.noarch: 2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64: 2.4.4.0-1

    • aws-neuronx-tools.x86_64: 2.18.3.0-1

    • aws-neuron-dkms.noarch: 2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64: 1.9.3.0-1

    • aws-neuron-k8-scheduler.x86_64: 1.9.3.0-1

    • aws-neuron-runtime.x86_64: 1.6.24.0-1

    • aws-neuron-runtime-base.x86_64: 1.6.21.0-1

    • aws-neuron-tools.x86_64: 2.1.4.0-1

    • aws-neuronx-collectives.x86_64: 2.26.43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64: 0.16.2.0-1

    • aws-neuronx-gpsimd-tools.x86_64: 0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64: 2.26.26.0-1

    • aws-neuronx-k8-scheduler.x86_64: 2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64: 2.26.42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86_64: 2.24.54.0-1

    • tensorflow-model-server-neuron.x86_64: 2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64: 2.10.1.2.12.2.0-0

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 9 de junho de 2025

Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS

Neuron SDK Updates
  • aws-neuronx-dkms.noarch: 2.21.37.0 (a partir da 2.20.74.0)

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 22 de maio de 2025

Atualizações gerais de AMI

Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS

Deep Learning Base AMI AL2
  • Driver NVIDIA mais recente: 550.163.01

  • Atualizações da pilha do CUDA:

    • CUDA padrão: 12.1

    • Versão da NCCL: 2.22.3

  • Instalador do EFA: 1.38.0

  • AWS OFI NCCL: 1.13.2

  • Kernel do Linux: 5.10

  • GDRCopy: 2.4

Importante
  • Atualização do NVIDIA Container Toolkit 1.17.4: a montagem de bibliotecas compatíveis com CUDA agora está desabilitada.

  • Atualizações do EFA de 1.37 para 1.38:

    • AWSO plugin OFI NCCL agora está localizado em /opt/amazon/ofi-nccl.

    • A localização anterior /opt/aws-ofi-nccl/ está obsoleta.

Neuron SDK Updates
  • aws-neuronx-dkms.noarch: 2.20.74.0 (a partir da 2.20.28.0)

  • aws-neuronx-collectives.x86_64: 2.25.65.0_9858ac9a1-1 (a partir da 2.24.59.0_838c7fc8b-1)

  • aws-neuronx-runtime-lib.x86_64: 2.25.57.0_166c7a468-1 (a partir da 2.24.53.0_f239092cc-1)

  • aws-neuronx-tools.x86_64: 2.23.9.0 (a partir da 2.22.61.0)

  • aws-neuronx-gpsimd-customop-lib.x86_64: 0.15.12.0 (a partir da 0.14.12.0)

  • aws-neuronx-gpsimd-tools.x86_64: 0.15.1.0_5d31b6a3f (a partir da 0.14.6.0_241eb69f4)

  • aws-neuronx-k8-plugin.x86_64: 2.25.24.0 (a partir da 2.24.23.0)

  • aws-neuronx-k8-scheduler.x86_64: 2.25.24.0 (a partir da 2.24.23.0)

Observações sobre compatibilidade:

  • Os componentes da AMI, incluindo versões do CUDA, podem ser removidos ou alterados com base na política de suporte do framework.

  • Para oferecer compatibilidade, a versão do kernel é fixa. Os usuários devem evitar atualizações, a menos que sejam necessárias para patches de segurança.

  • Para instâncias do EC2 com várias placas de rede, consulte o guia de configuração do EFA para obter a configuração adequada

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 7 de maio de 2025

Installed the latest version of AWS Neuron SDK
  • tensorflow-model-server-neuron.x86_64 2.8.0.2.3.0.0-0 neuron

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 28 de abril de 2025

Melhorias para o K8s

Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS

Installed the latest version of AWS Neuron SDK
  • aws-neuronx-dkms.noarch: 2.20.28.0-dkms

  • aws-neuronx-oci-hook.x86_64: 2.4.4.0-1

  • aws-neuronx-tools.x86_64: 2.18.3.0-1

  • aws-neuron-dkms.noarch: 2.3.26.0-dkms

  • aws-neuron-k8-plugin.x86_64: 1.9.3.0-1

  • aws-neuron-k8-scheduler.x86_64: 1.9.3.0-1

  • aws-neuron-runtime.x86_64: 1.6.24.0-1

  • aws-neuron-runtime-base.x86_64: 1.6.21.0-1

  • aws-neuron-tools.x86_64: 2.1.4.0-1

  • aws-neuronx-collectives.x86_64: 2.24.59.0_838c7fc8b-1

  • aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1

  • aws-neuronx-gpsimd-customop-lib.x86_64: 0.14.12.0-1

  • aws-neuronx-gpsimd-tools.x86_64: 0.14.6.0_241eb69f4-1

  • aws-neuronx-k8-plugin.x86_64: 2.24.23.0-1

  • aws-neuronx-k8-scheduler.x86_64: 2.24.23.0-1

  • aws-neuronx-runtime-lib.x86_64: 2.24.53.0_f239092cc-1

  • aws-neuronx-tools.x86_64: 2.22.61.0-1

  • tensorflow-model-server-neuronx.x86_64: 2.10.1.2.12.2.0-0

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 18 de abril de 2025

Atualizações gerais de AMI

  • Nova AMI do SageMaker HyperPod para o Amazon EKS 1.32.1.

Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS

As tarefas incluem o seguinte:

Deep Learning EKS AMI 1.32.1
  • Componentes do Amazon EKS

    • Versão do Kubernetes: 1.32.1

    • Versão do Containerd: 1.7.27

    • Versão do Runc: 1.1.14

    • AWS IAM Authenticator: 0.6.29

  • Amazon SSM Agent: 3.3.1611.0

  • Kernel do Linux: 5.10.235

  • Driver OSS da NVIDIA: 550.163.01

  • NVIDIA CUDA: 12.4

  • Instalador do EFA: 1.38.0

  • GDRCopy: 2.4.1-1

  • NVIDIA Container Toolkit: 1.17.6

  • AWS OFI NCCL: 1.13.2

  • aws-neuronx-tools: 2.18.3.0

  • aws-neuronx-runtime-lib: 2.24.53.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.20.28.0

  • aws-neuronx-collectives: 2.24.59.0

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 18 de fevereiro de 2025

Melhorias para o K8s

  • Atualização do NVIDIA Container Toolkit da versão 1.17.3 para a versão 1.17.4.

  • Correção do problema em que os clientes não conseguiam se conectar aos nós após uma reinicialização.

  • Versão atualizada do Elastic Fabric Adapter (EFA) de 1.37.0 para 1.38.0.

  • O EFA agora inclui o plug-in AWS OFI NCCL, que está localizado no diretório /opt/amazon/ofi-nccl, e não no caminho original /opt/aws-ofi-nccl/. Se você precisar atualizar sua variável de ambiente LD_LIBRARY_PATH, modifique o caminho para apontar para o novo local /opt/amazon/ofi-nccl local do plug-in OFI NCCL.

  • O pacote do Emacs foi removido dessas DLAMIs. Você pode instalar emacs a partir do GNU Emacs.

Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS

Installed the latest version of neuron SDK
  • aws-neuronx-dkms.noarch: 2.19.64.0-dkms @neuron

  • aws-neuronx-oci-hook.x86_64: 2.4.4.0-1 @neuron

  • aws-neuronx-tools.x86_64: 2.18.3.0-1 @neuron

  • aws-neuronx-collectives.x86_64: 2.23.135.0_3e70920f2-1 neuron

  • aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1 neuron

  • aws-neuronx-gpsimd-customop-lib.x86_64

  • aws-neuronx-gpsimd-tools.x86_64: 0.13.2.0_94ba34927-1 neuron

  • aws-neuronx-k8-plugin.x86_64: 2.23.45.0-1 neuron

  • aws-neuronx-k8-scheduler.x86_64: 2.23.45.0-1 neuron

  • aws-neuronx-runtime-lib.x86_64: 2.23.112.0_9b5179492-1 neuron

  • aws-neuronx-tools.x86_64: 2.20.204.0-1 neuron

  • tensorflow-model-server-neuronx.x86_64

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 22 de janeiro de 2025

Atualizações gerais de AMI

  • Nova AMI do SageMaker HyperPod para o Amazon EKS 1.31.2.

Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS

As tarefas incluem o seguinte:

Deep Learning EKS AMI 1.31
  • Componentes do Amazon EKS

    • Versão do Kubernetes: 1.31.2

    • Versão do Containerd: 1.7.23

    • Versão do Runc: 1.1.14

    • AWS IAM Authenticator: 0.6.26

  • Amazon SSM Agent: 3.3.987

  • Kernel do Linux: 5.10.230

  • Driver OSS da NVIDIA: 550.127.05

  • NVIDIA CUDA: 12.4

  • Instalador do EFA: 1.37.0

  • GDRCopy: 2.4.1-1

  • NVIDIA Container Toolkit: 1.17.3

  • AWS OFI NCCL: 1.13.0

  • aws-neuronx-tools: 2.18.3

  • aws-neuronx-runtime-lib: 2.23.112.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.18.20.0

  • aws-neuronx-collectives: 2.23.133.0

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 21 de dezembro de 2024

Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS

As tarefas incluem o seguinte:

K8s v1.28
  • Componentes do Amazon EKS

    • Kubernetes versão 1.28.15

    • Versão do Containerd: 1.7.23

    • Versão do Runc: 1.1.14

    • AWS IAM Authenticator: 0.6.26

  • Amazon SSM Agent: 3.3.987

  • Kernel do Linux: 5.10.228

  • Driver OSS da NVIDIA: 550.127.05

  • NVIDIA CUDA: 12.4

  • Instalador do EFA: 1.37.0

  • GDRCopy: 2.4

  • NVIDIA Container Toolkit: 1.17.3

  • AWS OFI NCCL: 1.13.0

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.23.112.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.18.20.0

  • aws-neuronx-collectives: 2.23.135.0

K8s v1.29
  • Componentes do Amazon EKS

    • Versão do Kubernetes: 1.29.10

    • Versão do Containerd: 1.7.23

    • Versão do Runc: 1.1.14

    • AWS IAM Authenticator: 0.6.26

  • Amazon SSM Agent: 3.3.987

  • Kernel do Linux: 5.15.0

  • Driver OSS da NVIDIA: 550.127.05

  • NVIDIA CUDA: 12.4

  • Instalador do EFA: 1.37.0

  • GDRCopy: 2.4

  • NVIDIA Container Toolkit: 1.17.3

  • AWS OFI NCCL: 1.13.0

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.23.112.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.18.20.0

  • aws-neuronx-collectives: 2.23.135.0

K8s v1.30
  • Componentes do Amazon EKS

    • Versão do Kubernetes: 1.30.6

    • Versão do Containerd: 1.7.23

    • Versão do Runc: 1.1.14

    • AWS IAM Authenticator: 0.6.26

  • Amazon SSM Agent: 3.3.987.0

  • Kernel do Linux: 5.10.228

  • Driver OSS da NVIDIA: 550.127.05

  • NVIDIA CUDA: 12.4

  • Instalador do EFA: 1.37.0

  • GDRCopy: 2.4

  • NVIDIA Container Toolkit: 1.17.3

  • AWS OFI NCCL: 1.13.0

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.23.112.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.18.20.0

  • aws-neuronx-collectives: 2.23.135.0

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 13 de dezembro de 2024

Atualização da DLAMI do SageMaker HyperPod para o Amazon EKS

  • Atualização do SSM Agent para a versão 3.3.1311.0.

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 24 de novembro de 2024

Atualizações gerais de AMI

  • Lançadas na região MEL (Melbourne).

  • Atualização da DLAMI base do SageMaker HyperPod para as seguintes versões:

    • Kubernetes: 2024-11-01.

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 15 de novembro de 2024

Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS

As tarefas incluem o seguinte:

Deep Learning EKS AMI 1.28
  • Componentes do Amazon EKS

    • Kubernetes versão 1.28.15

    • Versão do Containerd: 1.7.23

    • Versão do Runc: 1.1.14

    • AWS IAM Authenticator: 0.6.26

  • Amazon SSM Agent: 3.3.987

  • Kernel do Linux: 5.10.228

  • Driver OSS da NVIDIA: 550.127.05

  • NVIDIA CUDA: 12.4

  • Instalador do EFA: 1.34.0

  • GDRCopy: 2.4

  • NVIDIA Container Toolkit: 1.17.3

  • AWS OFI NCCL: 1.11.0

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.22.19.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.18.20.0

  • aws-neuronx-collectives: 2.22.33.0

Deep Learning EKS AMI 1.29
  • Componentes do Amazon EKS

    • Versão do Kubernetes: 1.29.10

    • Versão do Containerd: 1.7.23

    • Versão do Runc: 1.1.14

    • AWS IAM Authenticator: 0.6.26

  • Amazon SSM Agent: 3.3.987

  • Kernel do Linux: 5.10.228

  • Driver OSS da NVIDIA: 550.127.05

  • NVIDIA CUDA: 12.4

  • Instalador do EFA: 1.34.0

  • GDRCopy: 2.4

  • NVIDIA Container Toolkit: 1.17.3

  • AWS OFI NCCL: 1.11.0

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.22.19.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.18.20.0

  • aws-neuronx-collectives: 2.22.33.0

Deep Learning EKS AMI 1.30
  • Componentes do Amazon EKS

    • Versão do Kubernetes: 1.30.6

    • Versão do Containerd: 1.7.23

    • Versão do Runc: 1.1.14

    • AWS IAM Authenticator: 0.6.26

  • Amazon SSM Agent: 3.3.987

  • Kernel do Linux: 5.10.228

  • Driver OSS da NVIDIA: 550.127.05

  • NVIDIA CUDA: 12.4

  • Instalador do EFA: 1.34.0

  • GDRCopy: 2.4

  • NVIDIA Container Toolkit: 1.17.3

  • AWS OFI NCCL: 1.11.0

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.22.19.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.18.20.0

  • aws-neuronx-collectives: 2.22.33.0

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 11 de novembro de 2024

Atualizações gerais de AMI

  • Atualização da DLAMI do SageMaker HyperPod com as versões 1.28.13, 1.29.8 e 1.30.4 do Amazon EKS.

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 21 de outubro de 2024

Atualizações gerais de AMI

  • Atualização da DLAMI base do SageMaker HyperPod para as seguintes versões:

    • Amazon EKS: 1.28.11, 1.29.6 e 1.30.2.

Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 10 de setembro de 2024

Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS

As tarefas incluem o seguinte:

  • Componentes do Amazon EKS

    • Kubernetes versão 1.28.11

    • Versão do Containerd: 1.7.20

    • Versão Runc: 1.1.11

    • AWS IAM Authenticator: 0.6.21

  • Amazon SSM Agent: 3.3.380

  • Linux Kernel: 5.10.223

  • Driver NVIDIA OSS: 535.183.01

  • NVIDIA CUDA: 12.2

  • Instalador EFA: 1.32.0

  • GDRCopy: 2.4

  • Kit de ferramentas de contêiner NVIDIA: 1.16.1

  • AWS OFI NCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • coletivos aws-neuronx: 2.21.46.0

Deep Learning EKS AMI 1.29
  • Componentes do Amazon EKS

    • Kubernetes versão: 1.29.6

    • Versão do Containerd: 1.7.20

    • Versão Runc: 1.1.11

    • AWS IAM Authenticator: 0.6.21

  • Amazon SSM Agent: 3.3.380

  • Linux Kernel: 5.10.223

  • Driver Nvidia OSS: 535.183.01

  • NVIDIA CUDA: 12.2

  • Instalador EFA: 1.32.0

  • GDRCopy: 2.4

  • Kit de ferramentas de contêiner Nvidia: 1.16.1

  • AWS OFI NCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • coletivos aws-neuronx: 2.21.46.0

Deep Learning EKS AMI 1.30
  • Componentes do Amazon EKS

    • Kubernetes versão: 1.30.2

    • Versão do Containerd: 1.7.20

    • Versão Runc: 1.1.11

    • AWS IAM Authenticator: 0.6.21

  • Amazon SSM Agent: 3.3.380

  • Linux Kernel: 5.10.223

  • Driver Nvidia OSS: 535.183.01

  • NVIDIA CUDA: 12.2

  • Instalador EFA: 1.32.0

  • GDRCopy: 2.4

  • Kit de ferramentas de contêiner Nvidia: 1.16.1

  • AWS OFI NCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • coletivos aws-neuronx: 2.21.46.0