AMI de deep learning da AWS com GPU TensorFlow 2.16 (Amazon Linux 2)
Se precisar de ajuda para começar, consulte Conceitos básicos da DLAMI.
Formato do nome da AMI
AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) ${YYYY-MM-DD}
AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) ${YYYY-MM-DD}
Instâncias do EC2 com suporte
Consulte Alterações importantes no DLAMI.
O aprendizado profundo com driver OSS Nvidia é compatível com G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e e P5en.
Aprendizado profundo com driver proprietário da Nvidia compatível com G3 (G3.16x incompatível), P3, P3dn
A AMI inclui o seguinte:
Serviço da AWS compatível: EC2
Sistema operacional: Amazon Linux 2
Arquitetura de computação: x86
Python: /opt/tensorflow/bin/python3.10
TensorFlow versão: 2.16
Driver NVIDIA:
Driver OSS Nvidia: 550.144.03
Driver proprietário da Nvidia: 550.144.03
Pilha NVIDIA CUDA12:
Caminho de instalação de CUDA, NCCL e cuDDN: /usr/local/cuda-12.2/
Instalador do EFA: 1.34.0
AWS CLI v2 como aws2 e AWS CLI v1 como aws
Tipo de volume do EBS: gp3
Consulte o AMI-ID com o parâmetro SSM (a região de exemplo é us-east-1):
Driver OSS Nvidia:
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-tensorflow-2.16-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output textDriver proprietário da Nvidia:
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/proprietary-nvidia-driver-gpu-tensorflow-2.16-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
Consulte o AMI-ID com o parâmetro SSM (a região de exemplo é us-east-1):
Driver OSS Nvidia:
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU TensorFlow 2.16 (Amazon Linux 2) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output textDriver proprietário da Nvidia:
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI GPU TensorFlow 2.16 (Amazon Linux 2) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
Aviso
NVIDIA Container Toolkit 1.17.4
No NVIDIA Container Toolkit versão 1.17.4, a montagem das bibliotecas compatíveis com CUDA agora está desabilitada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêineres, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial “Se você usa uma camada de compatibilidade CUDA” aqui: https://docs.aws.amazon.com/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat
Atualizações futuras do sistema operacional do TensorFlow
O TensorFlow 2.16 será o último DLAMI que utiliza o sistema operacional Ubuntu 20.04. A partir do TensorFlow 2.17 e versões posteriores, o DLAMIs começará a utilizar o Ubuntu 22.04 como sistema operacional básico. Para clientes que desejam fazer upgrade para essas novas versões, certifique-se de que seus fluxos de trabalho estejam prontos para essa atualização.
Versão do Keras fixada em 2.0 em vez de 3.0
Com o lançamento mais recente do TF2.16, o Keras foi atualizado da versão principal 2 para 3.0. Esta versão do Keras é uma reescrita completa do pacote Keras (consulte mais informações na documentação do Keras 3
source /opt/tensorflow/bin/activate unset TF_USE_LEGACY_KERAS
Data de lançamento: 2025-02-17
Nomes de AMI:
AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) 20250215
AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) 20250215
Atualização
Atualização do NVIDIA Container Toolkit da versão 1.17.3 para 1.17.4.
Consulte mais informações na página de notas de versão aqui: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
No NVIDIA Container Toolkit versão 1.17.4, a montagem das bibliotecas compatíveis com CUDA agora está desabilitada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêineres, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial “Se você usa uma camada de compatibilidade CUDA” aqui: https://docs.aws.amazon.com/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat
Remoção
Remoção das bibliotecas em espaço de usuário cuobj e nvdisasm, fornecidas pelo NVIDIA CUDA Toolkit
, para corrigir as CVEs presentes no NVIDIA CUDA Toolkit Security Bulletin de 18 de fevereiro de 2025 .
Data de lançamento: 2025-01-20
Nomes de AMI:
AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) 20250120
AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) 20250118
Atualização
Atualização do driver Nvidia da versão 550.127.05 para 550.144.03 para corrigir as CVEs presentes no NVIDIA GPU Display Driver Security Bulletin de janeiro de 2025
Data de lançamento: 2024-10-23
Nomes de AMI:
AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) 20241022
AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) 20241023
Atualização
Atualização do driver Nvidia da versão 550.90.07 para 550.127.05 para corrigir as CVEs presentes no NVIDIA GPU Display Security Bulletin de outubro de 2024
Data de lançamento: 2024-09-28
Nomes de AMI:
AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) 20240928
AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) 20240928
Atualização
Atualização do Nvidia Container Toolkit da versão 1.16.1 para a 1.16.2, solucionando a vulnerabilidade de segurança CVE-2024-0133
.
Data de lançamento: 2024-09-21
Nomes de AMI:
AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) 20240921
AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) 20240921
Atualização
Atualização do driver Nvidia e Fabric Manager da versão 535.183.01 para 550.90.07
Atualização da versão do EFA de 1.32.0 para 1.34.0
Atualização da versão do PyTorch de 2.3.0 para 2.3.1
Adição
Adição de suporte para a instância P5e do EC2 em imagens do driver OSS Nvidia.
Data de lançamento: 2024-08-19
Nomes de AMI:
AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) 20240817
Adição
Adição de suporte para a instância G6e do EC2
.
Versão 2.16.2: data de lançamento: 2024-07-26
Nomes de AMI:
AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) 20240725
Atualização
Atualização da versão de patch do TensorFlow de 2.16.1 para 2.16.2
Resolução da versão secundária incorreta do TensorFlow no DLAMI lançada em 2024-07-17
A AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2), versão de 20240717, tinha inadvertidamente o TensorFlow na versão 2.17 em vez da 2.16. Certifique-se de que os fluxos de trabalho que dependem do TensorFlow 2.16 estejam sendo atualizados para o DLAMI mais recente.
Versão 2.16.1: data de lançamento: 2024-06-10
Nomes de AMI:
AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) 20240607
AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) 20240610
Atualização
Atualização da versão do driver Nvidia para 535.183.01 de 535.161.08
Data de lançamento: 2024-05-10
Consulte Alterações importantes no DLAMI
Nomes de AMI:
AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) 20240510
AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2) 20240510
Adição
Lançamento inicial de:
Série de AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2).
Série de AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Amazon Linux 2).
O software inclui o seguinte:
"nvidia-driver=535.161.08"
"fabric-manager=535.161.08"
"cuda=12.3"
"cudnn=8.9.7"
"efa=1.32.0"
"nccl=2.21.5"
"aws-nccl-ofi-plugin=v1.9.1-aws"
Adição de ambiente virtual do TensorFlow (origem do comando de ativação /opt/tensorflow/bin/activate). Esse ambiente inclui o seguinte:
"tensorflow=2.16.1"
OBSERVAÇÃO
A partir do TF2.16, a API tf.estimator foi removida.
Para continuar usando tf.estimator, você precisará usar o TF 2.15 ou uma versão anterior. Consulte mais informações em TensorFlow 2.16.1 release notes
Para garantir a compatibilidade com os fluxos de trabalho do cliente, fixamos as versões do Keras na 2.0 usando a variável de ambiente TF_USE_LEGACY_KERAS=1. Se os seus fluxos de trabalho exigem o uso do Keras 3.0, remova essa variável de ambiente do ambiente virtual do TensorFlow em /opt/tensorflow usando o seguinte script:
source /opt/tensorflow/bin/activate unset TF_USE_LEGACY_KERAS