Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS
As notas de lançamento a seguir acompanham as atualizações mais recentes das versões de AMI do Amazon SageMaker HyperPod para orquestração do Amazon EKS. Cada nota inclui uma lista resumida dos pacotes pré-instalados ou pré-configurados nas DLAMIs do SageMaker HyperPod para compatibilidade com o Amazon EKS. Cada DLAMI é criada no Amazon Linux 2 (AL2) e é compatível com uma versão específica do Kubernetes. Para versões de DLAMI do HyperPod DLAMI para orquestração do Slurm, consulte Lançamentos de AMI do SageMaker HyperPod para o Slurm. Para ter mais informações sobre lançamentos de recursos do Amazon SageMaker HyperPod, consulte Notas da versão do Amazon SageMaker HyperPod.
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 25 de agosto de 2025
Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS
Esta versão inclui as seguintes alterações:
- Kubernetes v1.28
-
NVIDIA SMI:
Pacotes adicionados:
Pacotes atualizados:
gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2
kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12
microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25
pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4
Pacotes removidos:
Repositório alterado:
libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
- Kubernetes v1.29
-
NVIDIA SMI:
Pacotes adicionados:
Pacotes atualizados:
gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2
kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12
microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25
pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4
Pacotes removidos:
Repositório alterado:
libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
- Kubernetes v1.30
-
NVIDIA SMI:
Pacotes adicionados:
Pacotes atualizados:
aws-neuronx-dkms.noarch: 2.22.2.0-dkms → 2.23.9.0-dkms
efa.x86_64: 2.15.3-1.amzn2 → 2.17.2-1.amzn2
efa-nv-peermem.x86_64: 1.2.1-1.amzn2 → 1.2.2-1.amzn2
gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2
ibacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
infiniband-diags.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
libfabric-aws.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2
libfabric-aws-devel.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2
libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12
libibumad.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libnccl-ofi.x86_64: 1.15.0-1.amzn2 → 1.16.2-1.amzn2
librdmacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
librdmacm-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25
pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4
rdma-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
rdma-core-devel.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
Pacotes removidos:
Repositório alterado:
libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
- Kubernetes v1.31
-
NVIDIA SMI:
Pacotes adicionados:
Pacotes atualizados:
gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2
kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12
microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25
pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4
Pacotes removidos:
Repositório alterado:
libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
- Kubernetes v1.32
-
NVIDIA SMI:
Pacotes adicionados:
Pacotes atualizados:
aws-neuronx-dkms.noarch: 2.22.2.0-dkms → 2.23.9.0-dkms
efa.x86_64: 2.15.3-1.amzn2 → 2.17.2-1.amzn2
efa-nv-peermem.x86_64: 1.2.1-1.amzn2 → 1.2.2-1.amzn2
gdk-pixbuf2.x86_64: 2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2
ibacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
infiniband-diags.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
kernel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-devel.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-headers.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
kernel-tools.x86_64: 5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2
libfabric-aws.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2
libfabric-aws-devel.x86_64: 2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2
libgs.x86_64: 9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12
libibumad.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libibverbs-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
libnccl-ofi.x86_64: 1.15.0-1.amzn2 → 1.16.2-1.amzn2
librdmacm.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
librdmacm-utils.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
microcode_ctl.x86_64: 2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25
pam.x86_64: 1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4
rdma-core.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
rdma-core-devel.x86_64: 57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2
Pacotes removidos:
Repositório alterado:
libnvidia-container-tools.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
libnvidia-container1.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
nvidia-container-toolkit-base.x86_64: cuda-rhel8-x86_64 → nvidia-container-toolkit
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 6 de agosto de 2025
Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS
As AMIs incluem as seguintes atualizações:
- K8s v1.28
-
-
Pacotes do Neuron:
-
aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1
-
aws-neuronx-dkms: 2.23.9.0-dkms
-
aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1
-
aws-neuronx-k8-plugin: 2.27.7.0-1
-
aws-neuronx-k8-scheduler: 2.27.7.0-1
-
aws-neuronx-tools: 2.25.145.0-1
- K8s v1.29
-
-
Pacotes do Neuron:
-
aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1
-
aws-neuronx-dkms: 2.23.9.0-dkms
-
aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1
-
aws-neuronx-k8-plugin: 2.27.7.0-1
-
aws-neuronx-k8-scheduler: 2.27.7.0-1
-
aws-neuronx-tools: 2.25.145.0-1
- K8s v1.30
-
-
Pacotes do Neuron:
-
aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1
-
aws-neuronx-dkms: 2.23.9.0-dkms
-
aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1
-
aws-neuronx-k8-plugin: 2.27.7.0-1
-
aws-neuronx-k8-scheduler: 2.27.7.0-1
-
aws-neuronx-tools: 2.25.145.0-1
- K8s v1.31
-
-
Pacotes do Neuron:
-
aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1
-
aws-neuronx-dkms: 2.23.9.0-dkms
-
aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1
-
aws-neuronx-k8-plugin: 2.27.7.0-1
-
aws-neuronx-k8-scheduler: 2.27.7.0-1
-
aws-neuronx-tools: 2.25.145.0-1
- K8s v1.32
-
-
Pacotes do Neuron:
-
aws-neuronx-collectives: 2.27.34.0_ec8cd5e8b-1
-
aws-neuronx-dkms: 2.23.9.0-dkms
-
aws-neuronx-runtime-lib: 2.27.23.0_8deec4dbf-1
-
aws-neuronx-k8-plugin: 2.27.7.0-1
-
aws-neuronx-k8-scheduler: 2.27.7.0-1
-
aws-neuronx-tools: 2.25.145.0-1
-
Deep Learning Base OSS NVIDIA Driver AMI (Amazon Linux 2) versão 70.3
-
Deep Learning Base Proprietary NVIDIA Driver AMI (Amazon Linux 2) versão 68.4
-
Compatibilidade mais recente com o CUDA 12.8
-
Driver da NVIDIA atualizado de 570.158.01 para 570.172.08 para corrigir CVEs presentes no NVIDIA Security Bulletin de julho
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 31 de julho de 2025
O Amazon SageMaker HyperPod agora permite usar uma nova AMI para clusters do Amazon EKS que atualiza o sistema operacional básico para o Amazon Linux 2023. Essa versão oferece várias melhorias do Amazon Linux 2 (AL2). O HyperPod lança novas AMIs regularmente. Por isso, recomendamos que você execute todos os clusters do HyperPod nas versões de AMI mais recentes e seguras para resolver vulnerabilidades e eliminar gradualmente softwares e bibliotecas desatualizados.
Principais atualizações
-
Sistema operacional: Amazon Linux 2023 (atualizado do Amazon Linux 2 ou AL2).
-
Gerenciador de pacotes: o DNF é a ferramenta padrão de gerenciamento de pacotes, substituindo o YUM usado no AL2.
-
Serviço de rede: o systemd-networkd gerencia interfaces de rede, substituindo o ISC dhclient usado no AL2.
-
Kernel do Linux: versão 6.1, atualizada a partir do kernel usado no AL2.
-
Glibc: versão 2.34, atualizada a partir da versão no AL2.
-
GCC: versão 11.5.0, atualizada a partir da versão no AL2.
-
NFS: versão 1:2.6.1, atualizada a partir da versão 1:1.3.4 no AL2.
-
Driver da NVIDIA: versão 570.172.08, uma versão mais recente do driver
-
Python: versão 3.9, que substitui o Python 2.7 usado no AL2.
-
NVMe: versão 1.11.1, uma versão mais recente do driver NVMe.
Antes da atualização
Há algumas questões importantes que você deve saber antes da atualização. Com o AL2023, vários pacotes foram adicionados, atualizados ou removidos em comparação com o AL2. É altamente recomendável testar as aplicações com o AL2023 antes de atualizar os clusters. Para ver uma lista abrangente de todas as alterações de pacote no AL2023, consulte Package changes in Amazon Linux 2023.
A seguir são apresentadas algumas das mudanças significativas entre o AL2 e AL2023:
-
Python 3.10: a atualização mais significativa, além do sistema operacional, é a da versão do Python. Após a atualização, os clusters têm o Python 3.10 como padrão. Embora algumas workloads de treinamento distribuído do Python 3.8 possam ser compatíveis com o Python 3.10, é altamente recomendável testar suas workloads específicas separadamente. Se a migração para o Python 3.10 for difícil, mas você ainda quiser atualizar o cluster para outros novos recursos, é possível instalar uma versão mais antiga do Python usando o comando yum install python-xx.x com scripts de ciclo de vida antes de executar qualquer workload. Teste os scripts de ciclo de vida existentes e o código da aplicação para verificar a compatibilidade.
-
Imposição do runtime da NVIDIA: o AL2023 aplica rigorosamente os requisitos de runtime do contêiner da NVIDIA, fazendo com que contêineres que têm variáveis de ambiente da NVIDIA com codificação rígida (como NVIDIA_VISIBLE_DEVICES: "all") falhem em nós somente da CPU (enquanto o AL2 ignora essas configurações quando não há nenhum driver de GPU). Você pode substituir a imposição NVIDIA_VISIBLE_DEVICES: "void" configurando a especificação do seu pod ou usando imagens somente da CPU.
-
cgroup v2: o AL2023 introduz a hierarquia de grupo de controle unificado de última geração (cgroup v2). A hierarquia cgroup v2 é usada para runtimes de contêiner e também é usada por systemd. Embora o AL2023 ainda inclua códigos que podem fazer o sistema funcionar ao usar cgroup v1, essa configuração não é recomendada.
-
Versões da CNI e do eksctl da Amazon VPC: o AL2023 também exige que a versão da CNI da Amazon VPC seja 1.16.2 ou posterior e que a versão do eksctl seja 0.176.0 ou posterior.
-
EFA no FSx para Lustre: agora é possível usar o EFA no FSx para Lustre, o que permite alcançar um desempenho de aplicação comparável aos clusters on-premises de IA/ML ou de computação de alta performance (HPC) e, ao mesmo tempo, beneficiar-se da escalabilidade, flexibilidade e elasticidade da computação em nuvem.
Além disso, a atualização para o AL2023 requer uma versão mínima 1.0.643.0_1.0.192.0 do Health Monitoring Agent. Conclua o seguinte procedimento para atualizar o Health Monitoring Agent:
-
Se você usa scripts de ciclo de vida do HyperPod do repositório awsome-distributed-training do GitHub, obtenha a versão mais recente. As versões anteriores não são compatíveis com o AL2023. O novo script de ciclo de vida garante que o containerd use o armazenamento adicional montado para extrair imagens de contêiner no AL2023.
-
Obtenha a versão mais recente do da CLI do HyperPod no repositório do Git.
-
Atualize as dependências com o seguinte comando: helm dependencies update helm_chart/HyperPodHelmChart.
-
Conforme mencionado na Etapa 4 do README do HyperPodHelmChart, execute o seguinte comando para atualizar a versão das dependências em execução no cluster: helm upgrade dependencies helm_chart/HyperPodHelmChart -namespace kube-system.
Workloads que foram testadas em clusters do EKS atualizados
Veja abaixo alguns casos de uso em que a atualização foi testada:
Compatibilidade com versões anteriores: tarefas de treinamento distribuído conhecidas que requeiram o uso do PyTorch devem ter compatibilidade retroativa na nova AMI. No entanto, como suas workloads podem depender de bibliotecas específicas do Python ou do Linux, recomendamos testar primeiro em uma escala menor ou em um subconjunto de nós antes de atualizar os clusters maiores.
Teste de acelerador: foram testados trabalhos em vários tipos de instância, utilizando aceleradores NVIDIA (para as famílias de instâncias P e G) e aceleradores do AWS Neuron (para instâncias Trn).
Como atualizar a AMI e as workloads correspondentes
É possível atualizar a AMI para a nova AMI usando um dos seguintes métodos:
-
Use a API create-cluster para criar um cluster com a AMI mais recente.
-
Use a API update-cluster-software para atualizar o cluster existente. Observe que essa opção executa novamente qualquer script de ciclo de vida.
O cluster não estará disponível durante o processo de atualização. Recomendamos planejar esse tempo de inatividade e reiniciar a workload de treinamento a partir de um ponto de verificação existente após a conclusão da atualização. Como prática recomendada, sugerimos que você execute testes em um cluster menor antes de atualizar clusters maiores.
Se o comando de atualização falhar, primeiro identifique a causa da falha. Para falhas no script de ciclo de vida, faça as correções necessárias nos scripts e tente novamente. Com relação a quaisquer outros problemas que não possam ser resolvidos, entre em contato com o AWS Support.
Solução de problemas
Use a seção a seguir para obter ajuda sobre como solucionar quaisquer problemas encontrados ao atualizar para o AL2023.
Como faço para corrigir erros, como "nvml error: driver
not loaded: unknown", em nós de cluster somente de CPU?
Se os contêineres que funcionavam nos nós de CPU do Amazon EKS no AL2 agora falharem no AL2023, isso significa que sua imagem de contêiner pode ter variáveis de ambiente NVIDIA com codificação rígida. Você pode verificar as variáveis de ambiente com codificação rígida usando o seguinte comando:
docker inspect image:tag | grep -i nvidia
O AL2023 aplica rigorosamente esses requisitos, enquanto o AL2 foi mais tolerante com nós somente de CPU. Uma solução é substituir a imposição do AL2023 definindo determinadas variáveis de ambiente da NVIDIA em sua especificação de pod do Amazon EKS, conforme mostrado no seguinte exemplo:
yaml
containers:
- name: your-container
image: your-image:tag
env:
- name: NVIDIA_VISIBLE_DEVICES
value: "void"
- name: NVIDIA_DRIVER_CAPABILITIES
value: ""
Também é possível usar imagens de contêiner somente de CPU (como pytorch/pytorch:latest-cpu) ou criar imagens personalizadas sem dependências da NVIDIA.
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 15 de julho de 2025
Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS
As AMIs incluem as seguintes atualizações:
- K8s v1.28
-
- K8s v1.29
-
- K8s v1.30
-
- K8s v1.31
-
- K8s v1.32
-
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 9 de junho de 2025
Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS
- Neuron SDK Updates
-
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 22 de maio de 2025
Atualizações gerais de AMI
Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS
- Deep Learning Base AMI AL2
-
-
Driver NVIDIA mais recente: 550.163.01
-
Atualizações da pilha do CUDA:
-
CUDA padrão: 12.1
-
Versão da NCCL: 2.22.3
-
Instalador do EFA: 1.38.0
-
AWS OFI NCCL: 1.13.2
-
Kernel do Linux: 5.10
-
GDRCopy: 2.4
- Neuron SDK Updates
-
-
aws-neuronx-dkms.noarch: 2.20.74.0 (a partir da 2.20.28.0)
-
aws-neuronx-collectives.x86_64: 2.25.65.0_9858ac9a1-1 (a partir da 2.24.59.0_838c7fc8b-1)
-
aws-neuronx-runtime-lib.x86_64: 2.25.57.0_166c7a468-1 (a partir da 2.24.53.0_f239092cc-1)
-
aws-neuronx-tools.x86_64: 2.23.9.0 (a partir da 2.22.61.0)
-
aws-neuronx-gpsimd-customop-lib.x86_64: 0.15.12.0 (a partir da 0.14.12.0)
-
aws-neuronx-gpsimd-tools.x86_64: 0.15.1.0_5d31b6a3f (a partir da 0.14.6.0_241eb69f4)
-
aws-neuronx-k8-plugin.x86_64: 2.25.24.0 (a partir da 2.24.23.0)
-
aws-neuronx-k8-scheduler.x86_64: 2.25.24.0 (a partir da 2.24.23.0)
Observações sobre compatibilidade:
-
Os componentes da AMI, incluindo versões do CUDA, podem ser removidos ou alterados com base na política de suporte do framework.
-
Para oferecer compatibilidade, a versão do kernel é fixa. Os usuários devem evitar atualizações, a menos que sejam necessárias para patches de segurança.
-
Para instâncias do EC2 com várias placas de rede, consulte o guia de configuração do EFA para obter a configuração adequada
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 7 de maio de 2025
- Installed the latest version of AWS Neuron SDK
-
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 28 de abril de 2025
Melhorias para o K8s
Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS
- Installed the latest version of AWS Neuron SDK
-
-
aws-neuronx-dkms.noarch: 2.20.28.0-dkms
-
aws-neuronx-oci-hook.x86_64: 2.4.4.0-1
-
aws-neuronx-tools.x86_64: 2.18.3.0-1
-
aws-neuron-dkms.noarch: 2.3.26.0-dkms
-
aws-neuron-k8-plugin.x86_64: 1.9.3.0-1
-
aws-neuron-k8-scheduler.x86_64: 1.9.3.0-1
-
aws-neuron-runtime.x86_64: 1.6.24.0-1
-
aws-neuron-runtime-base.x86_64: 1.6.21.0-1
-
aws-neuron-tools.x86_64: 2.1.4.0-1
-
aws-neuronx-collectives.x86_64: 2.24.59.0_838c7fc8b-1
-
aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1
-
aws-neuronx-gpsimd-customop-lib.x86_64: 0.14.12.0-1
-
aws-neuronx-gpsimd-tools.x86_64: 0.14.6.0_241eb69f4-1
-
aws-neuronx-k8-plugin.x86_64: 2.24.23.0-1
-
aws-neuronx-k8-scheduler.x86_64: 2.24.23.0-1
-
aws-neuronx-runtime-lib.x86_64: 2.24.53.0_f239092cc-1
-
aws-neuronx-tools.x86_64: 2.22.61.0-1
-
tensorflow-model-server-neuronx.x86_64: 2.10.1.2.12.2.0-0
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 18 de abril de 2025
Atualizações gerais de AMI
Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS
As tarefas incluem o seguinte:
- Deep Learning EKS AMI 1.32.1
-
-
Componentes do Amazon EKS
-
Versão do Kubernetes: 1.32.1
-
Versão do Containerd: 1.7.27
-
Versão do Runc: 1.1.14
-
AWS IAM Authenticator: 0.6.29
-
Amazon SSM Agent: 3.3.1611.0
-
Kernel do Linux: 5.10.235
-
Driver OSS da NVIDIA: 550.163.01
-
NVIDIA CUDA: 12.4
-
Instalador do EFA: 1.38.0
-
GDRCopy: 2.4.1-1
-
NVIDIA Container Toolkit: 1.17.6
-
AWS OFI NCCL: 1.13.2
-
aws-neuronx-tools: 2.18.3.0
-
aws-neuronx-runtime-lib: 2.24.53.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.20.28.0
-
aws-neuronx-collectives: 2.24.59.0
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 18 de fevereiro de 2025
Melhorias para o K8s
-
Atualização do NVIDIA Container Toolkit da versão 1.17.3 para a versão 1.17.4.
-
Correção do problema em que os clientes não conseguiam se conectar aos nós após uma reinicialização.
-
Versão atualizada do Elastic Fabric Adapter (EFA) de 1.37.0 para 1.38.0.
-
O EFA agora inclui o plug-in AWS OFI NCCL, que está localizado no diretório /opt/amazon/ofi-nccl, e não no caminho original /opt/aws-ofi-nccl/. Se você precisar atualizar sua variável de ambiente LD_LIBRARY_PATH, modifique o caminho para apontar para o novo local /opt/amazon/ofi-nccl local do plug-in OFI NCCL.
-
O pacote do Emacs foi removido dessas DLAMIs. Você pode instalar emacs a partir do GNU Emacs.
Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS
- Installed the latest version of neuron SDK
-
-
aws-neuronx-dkms.noarch: 2.19.64.0-dkms @neuron
-
aws-neuronx-oci-hook.x86_64: 2.4.4.0-1 @neuron
-
aws-neuronx-tools.x86_64: 2.18.3.0-1 @neuron
-
aws-neuronx-collectives.x86_64: 2.23.135.0_3e70920f2-1 neuron
-
aws-neuronx-gpsimd-customop.x86_64: 0.2.3.0-1 neuron
-
aws-neuronx-gpsimd-customop-lib.x86_64
-
aws-neuronx-gpsimd-tools.x86_64: 0.13.2.0_94ba34927-1 neuron
-
aws-neuronx-k8-plugin.x86_64: 2.23.45.0-1 neuron
-
aws-neuronx-k8-scheduler.x86_64: 2.23.45.0-1 neuron
-
aws-neuronx-runtime-lib.x86_64: 2.23.112.0_9b5179492-1 neuron
-
aws-neuronx-tools.x86_64: 2.20.204.0-1 neuron
-
tensorflow-model-server-neuronx.x86_64
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 22 de janeiro de 2025
Atualizações gerais de AMI
Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS
As tarefas incluem o seguinte:
- Deep Learning EKS AMI 1.31
-
-
Componentes do Amazon EKS
-
Versão do Kubernetes: 1.31.2
-
Versão do Containerd: 1.7.23
-
Versão do Runc: 1.1.14
-
AWS IAM Authenticator: 0.6.26
-
Amazon SSM Agent: 3.3.987
-
Kernel do Linux: 5.10.230
-
Driver OSS da NVIDIA: 550.127.05
-
NVIDIA CUDA: 12.4
-
Instalador do EFA: 1.37.0
-
GDRCopy: 2.4.1-1
-
NVIDIA Container Toolkit: 1.17.3
-
AWS OFI NCCL: 1.13.0
-
aws-neuronx-tools: 2.18.3
-
aws-neuronx-runtime-lib: 2.23.112.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.23.133.0
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 21 de dezembro de 2024
Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS
As tarefas incluem o seguinte:
- K8s v1.28
-
-
Componentes do Amazon EKS
-
Kubernetes versão 1.28.15
-
Versão do Containerd: 1.7.23
-
Versão do Runc: 1.1.14
-
AWS IAM Authenticator: 0.6.26
-
Amazon SSM Agent: 3.3.987
-
Kernel do Linux: 5.10.228
-
Driver OSS da NVIDIA: 550.127.05
-
NVIDIA CUDA: 12.4
-
Instalador do EFA: 1.37.0
-
GDRCopy: 2.4
-
NVIDIA Container Toolkit: 1.17.3
-
AWS OFI NCCL: 1.13.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.23.112.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.23.135.0
- K8s v1.29
-
-
Componentes do Amazon EKS
-
Versão do Kubernetes: 1.29.10
-
Versão do Containerd: 1.7.23
-
Versão do Runc: 1.1.14
-
AWS IAM Authenticator: 0.6.26
-
Amazon SSM Agent: 3.3.987
-
Kernel do Linux: 5.15.0
-
Driver OSS da NVIDIA: 550.127.05
-
NVIDIA CUDA: 12.4
-
Instalador do EFA: 1.37.0
-
GDRCopy: 2.4
-
NVIDIA Container Toolkit: 1.17.3
-
AWS OFI NCCL: 1.13.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.23.112.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.23.135.0
- K8s v1.30
-
-
Componentes do Amazon EKS
-
Versão do Kubernetes: 1.30.6
-
Versão do Containerd: 1.7.23
-
Versão do Runc: 1.1.14
-
AWS IAM Authenticator: 0.6.26
-
Amazon SSM Agent: 3.3.987.0
-
Kernel do Linux: 5.10.228
-
Driver OSS da NVIDIA: 550.127.05
-
NVIDIA CUDA: 12.4
-
Instalador do EFA: 1.37.0
-
GDRCopy: 2.4
-
NVIDIA Container Toolkit: 1.17.3
-
AWS OFI NCCL: 1.13.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.23.112.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.23.135.0
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 13 de dezembro de 2024
Atualização da DLAMI do SageMaker HyperPod para o Amazon EKS
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 24 de novembro de 2024
Atualizações gerais de AMI
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 15 de novembro de 2024
Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS
As tarefas incluem o seguinte:
- Deep Learning EKS AMI 1.28
-
-
Componentes do Amazon EKS
-
Kubernetes versão 1.28.15
-
Versão do Containerd: 1.7.23
-
Versão do Runc: 1.1.14
-
AWS IAM Authenticator: 0.6.26
-
Amazon SSM Agent: 3.3.987
-
Kernel do Linux: 5.10.228
-
Driver OSS da NVIDIA: 550.127.05
-
NVIDIA CUDA: 12.4
-
Instalador do EFA: 1.34.0
-
GDRCopy: 2.4
-
NVIDIA Container Toolkit: 1.17.3
-
AWS OFI NCCL: 1.11.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.22.19.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.22.33.0
- Deep Learning EKS AMI 1.29
-
-
Componentes do Amazon EKS
-
Versão do Kubernetes: 1.29.10
-
Versão do Containerd: 1.7.23
-
Versão do Runc: 1.1.14
-
AWS IAM Authenticator: 0.6.26
-
Amazon SSM Agent: 3.3.987
-
Kernel do Linux: 5.10.228
-
Driver OSS da NVIDIA: 550.127.05
-
NVIDIA CUDA: 12.4
-
Instalador do EFA: 1.34.0
-
GDRCopy: 2.4
-
NVIDIA Container Toolkit: 1.17.3
-
AWS OFI NCCL: 1.11.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.22.19.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.22.33.0
- Deep Learning EKS AMI 1.30
-
-
Componentes do Amazon EKS
-
Versão do Kubernetes: 1.30.6
-
Versão do Containerd: 1.7.23
-
Versão do Runc: 1.1.14
-
AWS IAM Authenticator: 0.6.26
-
Amazon SSM Agent: 3.3.987
-
Kernel do Linux: 5.10.228
-
Driver OSS da NVIDIA: 550.127.05
-
NVIDIA CUDA: 12.4
-
Instalador do EFA: 1.34.0
-
GDRCopy: 2.4
-
NVIDIA Container Toolkit: 1.17.3
-
AWS OFI NCCL: 1.11.0
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.22.19.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.18.20.0
-
aws-neuronx-collectives: 2.22.33.0
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 11 de novembro de 2024
Atualizações gerais de AMI
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 21 de outubro de 2024
Atualizações gerais de AMI
Lançamentos de AMI do SageMaker HyperPod para o Amazon EKS: 10 de setembro de 2024
Compatibilidade com o SageMaker HyperPod DLAMI para Amazon EKS
As tarefas incluem o seguinte:
-
-
Componentes do Amazon EKS
-
Kubernetes versão 1.28.11
-
Versão do Containerd: 1.7.20
-
Versão Runc: 1.1.11
-
AWS IAM Authenticator: 0.6.21
-
Amazon SSM Agent: 3.3.380
-
Linux Kernel: 5.10.223
-
Driver NVIDIA OSS: 535.183.01
-
NVIDIA CUDA: 12.2
-
Instalador EFA: 1.32.0
-
GDRCopy: 2.4
-
Kit de ferramentas de contêiner NVIDIA: 1.16.1
-
AWS OFI NCCL: 1.9.1
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.21.41.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.17.17.0
-
coletivos aws-neuronx: 2.21.46.0
- Deep Learning EKS AMI 1.29
-
-
Componentes do Amazon EKS
-
Kubernetes versão: 1.29.6
-
Versão do Containerd: 1.7.20
-
Versão Runc: 1.1.11
-
AWS IAM Authenticator: 0.6.21
-
Amazon SSM Agent: 3.3.380
-
Linux Kernel: 5.10.223
-
Driver Nvidia OSS: 535.183.01
-
NVIDIA CUDA: 12.2
-
Instalador EFA: 1.32.0
-
GDRCopy: 2.4
-
Kit de ferramentas de contêiner Nvidia: 1.16.1
-
AWS OFI NCCL: 1.9.1
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.21.41.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.17.17.0
-
coletivos aws-neuronx: 2.21.46.0
- Deep Learning EKS AMI 1.30
-
-
Componentes do Amazon EKS
-
Kubernetes versão: 1.30.2
-
Versão do Containerd: 1.7.20
-
Versão Runc: 1.1.11
-
AWS IAM Authenticator: 0.6.21
-
Amazon SSM Agent: 3.3.380
-
Linux Kernel: 5.10.223
-
Driver Nvidia OSS: 535.183.01
-
NVIDIA CUDA: 12.2
-
Instalador EFA: 1.32.0
-
GDRCopy: 2.4
-
Kit de ferramentas de contêiner Nvidia: 1.16.1
-
AWS OFI NCCL: 1.9.1
-
aws-neuronx-tools: 2.18.3.0-1
-
aws-neuronx-runtime-lib: 2.21.41.0
-
aws-neuronx-oci-hook: 2.4.4.0-1
-
aws-neuronx-dkms: 2.17.17.0
-
coletivos aws-neuronx: 2.21.46.0