AMI de deep learning da AWS com GPU TensorFlow 2.16 (Ubuntu 20.04) - AMIs de deep learning da AWS

AMI de deep learning da AWS com GPU TensorFlow 2.16 (Ubuntu 20.04)

Se precisar de ajuda para começar, consulte Conceitos básicos da DLAMI.

Formato do nome da AMI

  • AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) ${YYYY-MM-DD}

  • AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) ${YYYY-MM-DD}

Instâncias do EC2 com suporte

  • Consulte Alterações importantes no DLAMI

  • O aprendizado profundo com driver OSS Nvidia é compatível com G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e e P5en.

  • Aprendizado profundo com driver proprietário da Nvidia compatível com G3 (G3.16x incompatível), P3, P3dn

A AMI inclui o seguinte:

  • Serviço da AWS compatível: EC2

  • Sistema operacional: Ubuntu 20.04

  • Arquitetura de computação: x86

  • Python: /opt/tensorflow/bin/python3.10

  • TensorFlow versão: 2.16

  • Driver NVIDIA:

    • Driver OSS Nvidia: 550.144.03

    • Driver proprietário da Nvidia: 550.144.03

  • Pilha NVIDIA CUDA12:

    • Caminho de instalação de CUDA, NCCL e cuDDN: /usr/local/cuda-12.3/

  • Instalador do EFA: 1.34.0

  • AWS CLI v2 como aws2 e AWS CLI v1 como aws

  • Tipo de volume do EBS: gp3

  • Consulte o AMI-ID com o parâmetro SSM (a região de exemplo é us-east-1):

    • Driver OSS Nvidia:

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-tensorflow-2.16-ubuntu-20.04/latest/ami-id --region us-east-1 --region us-east-1 --query "Parameter.Value" --output text
    • Driver proprietário da Nvidia:

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/proprietary-nvidia-driver-gpu-tensorflow-2.16-ubuntu-20.04/latest/ami-id --region us-east-1 --region us-east-1 --query "Parameter.Value" --output text
  • Consulte o AMI-ID com o parâmetro SSM (a região de exemplo é us-east-1):

    • Driver OSS Nvidia:

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU TensorFlow 2.16 (Ubuntu 20.04) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
    • Driver proprietário da Nvidia:

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI GPU TensorFlow 2.16 (Ubuntu 20.04) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Aviso

Versão do Keras fixada em 2.0 em vez de 3.0

Com o lançamento mais recente do TF2.16, o Keras foi atualizado da versão principal 2 para 3.0. Esta versão do Keras é uma reescrita completa do pacote Keras (consulte mais informações na documentação do Keras 3). Para garantir a compatibilidade com os fluxos de trabalho do cliente, fixamos as versões do Keras na 2.0 usando a variável de ambiente TF_USE_LEGACY_KERAS=1. Se os seus fluxos de trabalho exigem o uso do Keras 3.0, remova essa variável de ambiente do ambiente virtual do TensorFlow em /opt/tensorflow usando o seguinte script:

source /opt/tensorflow/bin/activate unset TF_USE_LEGACY_KERAS

Data de lançamento: 2025-02-17

Nomes de AMI:

  • AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) 20250215

  • AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) 20250215

Atualização
Remoção
  • Remoção das bibliotecas em espaço de usuário cuobj e nvdisasm fornecidas pelo NVIDIA CUDA Toolkit.

Data de lançamento: 2025-01-20

Nomes de AMI:

  • AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) 20250118

  • AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) 20250118

Atualização

Data de lançamento: 2024-10-22

Nomes de AMI:

  • AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) 20241022

  • AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) 20241022

Atualização

Data de lançamento: 2024-10-04

Nomes de AMI:

  • AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) 20241004

  • AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) 20240920

Atualização
  • Atualização do Nvidia Container Toolkit da versão 1.16.1 para a 1.16.2, solucionando a vulnerabilidade de segurança CVE-2024-0133.

Data de lançamento: 2024-09-20

Nomes de AMI:

  • AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) 20240920

  • AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) 20240920

Atualização
  • Atualização do driver Nvidia e Fabric Manager da versão 535.183.01 para 550.90.07

  • Atualização da versão do EFA de 1.32.0 para 1.34.0

  • Atualização da versão do PyTorch de 2.3.0 para 2.3.1

Adição
  • Adição de suporte para a instância P5e do EC2 em imagens do driver OSS Nvidia.

Data de lançamento: 2024-08-19

Nomes de AMI:

  • AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) 20240816

Adição

Versão 2.16.2: data de lançamento: 2024-07-25

Nomes de AMI:

  • AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) 20240725

Atualização
  • Atualização da versão de patch do TensorFlow de 2.16.1 para 2.16.2

  • Resolução da versão secundária do TensorFlow que está sendo atualizada da versão 2.16 para a 2.17

    • A AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04), versão de 20240717, tinha inadvertidamente o TensorFlow na versão 2.17 em vez da 2.16. Certifique-se de que os fluxos de trabalho que dependem do TensorFlow 2.16 estejam sendo atualizados para o DLAMI mais recente.

Versão 2.16.1: data de lançamento: 2024-06-06

Nomes de AMI:

  • AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) 20240606

  • AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) 20240606

Atualização
  • Atualização da versão do driver Nvidia para 535.183.01 de 535.161.08

Data de lançamento: 2024-05-10

Nomes de AMI:

Consulte Alterações importantes no DLAMI

  • AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) <>

  • AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04) <>

Adição
  • Lançamento inicial de:

    • Série de AMI do driver proprietário da Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04).

    • Série de AMI do driver OSS Nvidia para aprendizado profundo com GPU TensorFlow 2.16 (Ubuntu 20.04).

    • O software inclui o seguinte:

      • "nvidia-driver=535.161.08"

      • "fabric-manager=535.161.08"

      • "cuda=12.3"

      • "cudnn=8.9.7"

      • "efa=1.32.0"

      • "nccl=2.21.5"

      • "aws-nccl-ofi-plugin=v1.9.1-aws"

  • Adição de ambiente virtual do TensorFlow (origem do comando de ativação /opt/tensorflow/bin/activate). Esse ambiente inclui o seguinte:

    • "tensorflow=2.16.1"

    • OBSERVAÇÃO

      • A partir do TF2.16, a API tf.estimator foi removida.

        • Para continuar usando tf.estimator, você precisará usar o TF 2.15 ou uma versão anterior. Consulte mais informações em TensorFlow 2.16.1 release notes

      • Para garantir a compatibilidade com os fluxos de trabalho do cliente, fixamos as versões do Keras na 2.0 usando a variável de ambiente TF_USE_LEGACY_KERAS=1. Se os seus fluxos de trabalho exigem o uso do Keras 3.0, remova essa variável de ambiente do ambiente virtual do TensorFlow em /opt/tensorflow usando o seguinte script:

source /opt/tensorflow/bin/activate unset TF_USE_LEGACY_KERAS