AWS GPU AMI TensorFlow 2.16 de aprendizado profundo (Amazon Linux 2) - AMIs de deep learning da AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS GPU AMI TensorFlow 2.16 de aprendizado profundo (Amazon Linux 2)

Para obter ajuda para começar, consulteConceitos básicos da DLAMI.

Formato de nome da AMI

  • Driver Nvidia proprietário de aprendizado profundo AMI GPU TensorFlow 2.16 (Amazon Linux 2) $ {YYYY-MM-DD}

  • Driver OSS Nvidia de aprendizado profundo AMI GPU TensorFlow 2.16 (Amazon Linux 2) $ {YYYY-MM-DD}

EC2 Instâncias suportadas

  • Consulte Alterações importantes no DLAMI.

  • Aprendizado profundo com OSS O driver Nvidia suporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en.

  • O Deep Learning com driver proprietário da Nvidia suporta G3 (G3.16x não suportado), P3, P3dn

A AMI inclui o seguinte:

  • AWS Serviço suportado: EC2

  • Sistema operacional: Amazon Linux 2

  • Arquitetura de computação: x86

  • Python:/3.10 opt/tensorflow/bin/python

  • TensorFlow versão: 2.16

  • Controlador NVIDIA:

    • Driver OSS Nvidia: 550.144.03

    • Driver proprietário da Nvidia: 550.144.03

  • Pilha NVIDIA CUDA12 :

    • Caminho de instalação de CUDA, NCCL e cuDDN:/-12.2/ usr/local/cuda

  • Instalador EFA: 1.34.0

  • AWS CLI v2 como aws2 e AWS CLI v1 como aws

  • Tipo de volume do EBS: gp3

  • Consulte o AMI-ID com o parâmetro SSM (a região de exemplo é us-east-1):

    • Controlador OSS Nvidia:

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-tensorflow-2.16-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
    • Driver proprietário da Nvidia:

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/proprietary-nvidia-driver-gpu-tensorflow-2.16-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
  • Consulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):

    • Controlador OSS Nvidia:

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU TensorFlow 2.16 (Amazon Linux 2) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
    • Driver proprietário da Nvidia:

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI GPU TensorFlow 2.16 (Amazon Linux 2) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Aviso

Kit de ferramentas de contêiner NVIDIA 1.17.4

No Container Toolkit versão 1.17.4, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêineres, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial “Se você usar uma camada de compatibilidade CUDA” aqui - -gpu-drivers.html# https://docs.aws.amazon.com/sagemaker/ latest/dg/inference collapsible-cuda-compat

Atualizações futuras do sistema TensorFlow operacional

TensorFlow 2.16 será o último DLAMI que utiliza o sistema operacional Ubuntu 20.04. A partir da TensorFlow versão 2.17 e versões DLAMIs posteriores, começaremos a utilizar o Ubuntu 22.04 como sistema operacional básico. Para clientes que desejam fazer o upgrade para essas novas versões, certifique-se de que seus fluxos de trabalho estejam prontos para essa atualização.

Versão Keras fixada em 2.0 em vez de 3.0

Com a versão TF2 1.6 mais recente, o Keras foi atualizado da versão principal 2 para a versão principal 3.0. Esta versão do Keras é uma reescrita completa do pacote Keras (consulte a documentação do Keras 3 para obter mais informações). Para garantir a compatibilidade com os fluxos de trabalho do cliente, fixamos as versões do Keras na 2.0 usando a variável de ambiente TF_USE_LEGACY_KERAS=1. Se seus fluxos de trabalho exigirem o uso do Keras 3.0, remova essa variável de ambiente do seu ambiente TensorFlow virtual /opt/tensorflow usando o seguinte script:

source /opt/tensorflow/bin/activate unset TF_USE_LEGACY_KERAS

Data de lançamento: 2025-02-17

Nomes da AMI:

  • Driver de aprendizado profundo OSS Nvidia AMI GPU TensorFlow 2.16 (Amazon Linux 2) 2025-02-15

  • Driver Nvidia proprietário de aprendizado profundo (AMI GPU TensorFlow 2.16) (Amazon Linux 2) 2025-02-15

Atualizado
Removido

Data de lançamento: 2025-01-20

Nomes da AMI:

  • Driver OSS Nvidia de aprendizado profundo AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20250120

  • Driver Nvidia proprietário de aprendizado profundo AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20250118

Atualizado

Data de lançamento: 2024-10-23

Nomes da AMI:

  • Driver OSS Nvidia de aprendizado profundo AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20241022

  • Driver Nvidia proprietário de aprendizado profundo AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20241023

Atualizado

Data de lançamento: 2024-09-28

Nomes da AMI:

  • Driver OSS Nvidia de aprendizado profundo AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240928

  • Driver Nvidia proprietário de aprendizado profundo AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240928

Atualizado

Data de lançamento: 2024-09-21

Nomes da AMI:

  • Driver OSS Nvidia de aprendizado profundo AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240921

  • Driver Nvidia proprietário de aprendizado profundo AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240921

Atualizado
  • Driver Nvidia e Fabric Manager atualizados da versão 535.183.01 para 550.90.07

  • Versão EFA atualizada de 1.32.0 para 1.34.0

  • PyTorch Versão atualizada da versão 2.3.0 para 2.3.1

Adicionado
  • Foi adicionado suporte para a EC2 instância P5e no OSS Nvidia Driver Images.

Data de lançamento: 2024-08-19

Nomes da AMI:

  • Driver OSS Nvidia de aprendizado profundo AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240817

Adicionado

Versão 2.16.2 - Data de lançamento: 2024-07-26

Nomes da AMI:

  • Driver OSS Nvidia de aprendizado profundo AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240725

Atualizado
  • Versão de TensorFlow patch atualizada da versão 2.16.1 para 2.16.2

  • Versão TensorFlow secundária incorreta resolvida no DLAMI lançada em 2024-07-17

    • A versão 20240717 do Deep Learning OSS Nvidia Driver AMI GPU TensorFlow 2.16 (Amazon Linux 2) continha inadvertidamente TensorFlow a versão secundária 2.17 em vez da 2.16. Certifique-se de que os fluxos de trabalho baseados na TensorFlow versão 2.16 estejam sendo atualizados para o DLAMI mais recente.

Versão 2.16.1 - Data de lançamento: 2024-06-10

Nomes da AMI:

  • Driver OSS Nvidia de aprendizado profundo AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240607

  • Driver Nvidia proprietário de aprendizado profundo AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240610

Atualizado
  • Versão atualizada do driver Nvidia para 535.183.01 de 535.161.08

Data de lançamento: 2024-05-10

Consulte Alterações importantes no DLAMI

Nomes da AMI:

  • Driver Nvidia proprietário de aprendizado profundo AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240510

  • Driver OSS Nvidia de aprendizado profundo AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240510

Adicionado
  • Lançamento inicial de:

    • Driver Nvidia proprietário da série AMI GPU TensorFlow 2.16 (Amazon Linux 2) de aprendizado profundo.

    • Deep Learning OSS Nvidia Driver AMI GPU série TensorFlow 2.16 (Amazon Linux 2).

    • O software inclui o seguinte:

      • “nvidia-driver = 535.161.08"

      • “gerenciador de tecidos = 535.161,08"

      • “cuda = 12,3"

      • “cudnn = 8,9,7"

      • “efa = 1,32,0"

      • “nccl=2.21.5"

      • “aws-nccl-ofi-plugin=v1.9.1-aws”

  • Ambiente virtual tensorflow adicionado (fonte do comando de ativação/opt/tensorflow/bin/activate). Esse ambiente inclui o seguinte:

    • “tensorflow = 2.16.1"

    • NOTA

      • A partir da versão TF2 .16, a API tf.estimator é removida.

      • Para garantir a compatibilidade com os fluxos de trabalho do cliente, fixamos as versões do Keras na 2.0 usando a variável de ambiente TF_USE_LEGACY_KERAS=1. Se seus fluxos de trabalho exigirem o uso do Keras 3.0, remova essa variável de ambiente do seu ambiente TensorFlow virtual /opt/tensorflow usando o seguinte script:

source /opt/tensorflow/bin/activate unset TF_USE_LEGACY_KERAS