AWS AMI de aprendizado profundo (Amazon Linux 2) - AMIs de deep learning da AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS AMI de aprendizado profundo (Amazon Linux 2)

dica

Os clientes que usam uma estrutura única gostam PyTorch ou TensorFlow são incentivados a usar a estrutura única DLAMIs mencionada aqui.

Para obter ajuda para começar, consulteConceitos básicos da DLAMI.

Formato de nome da AMI

  • Versão $ {XX.X} do driver Nvidia Driver AMI (Amazon Linux 2) proprietário do Deep Learning

  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2), versão $ {XX.X}

EC2 Instâncias suportadas

  • Consulte Alterações importantes no DLAMI.

  • Aprendizado profundo com OSS O driver Nvidia suporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5

  • O Deep Learning com driver proprietário da Nvidia suporta G3 (G3.16x não suportado), P3, P3dn

A AMI inclui o seguinte:

  • AWS Serviço suportado: Amazon EC2

  • Sistema operacional: Amazon Linux 2

  • Arquitetura de computação: x86

  • Estrutura de ambientes Conda e versões python:

    • AMI de driver OSS Nvidia de aprendizado profundo (Amazon Linux 2):

      • python3: Python 3.10

      • tensorflow2_p310:2.16, Python 3.10 TensorFlow

      • pytorch_p310:2.2, Python 3.10 PyTorch

    • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2):

      • python3: Python 3.10

      • tensorflow2_p310:2.16, Python 3.10 TensorFlow

      • pytorch_p310:2.2, Python 3.10 PyTorch

  • Controlador NVIDIA:

    • Controlador OSS Nvidia: 550.163.01

    • Driver proprietário da Nvidia: 550.163.01

  • Pilha NVIDIA CUDA12 1.1-12.4:

    • Caminho de instalação de CUDA, NCCL e cuDDN:/-xx.x/ usr/local/cuda

    • CUDA padrão: 12.1

      • PATH//usr/local/cudaaponta para 1 CUDA12.

      • Variáveis de ambiente atualizadas abaixo:

        • LD_LIBRARY_PATH para ter/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • PATH para ter/usr/local/cuda-12.1/bin/:/usr/local/cuda-11.8/include/

      • Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.

    • Versão NCCL compilada para CUDA 12.1-12.4:2.22.3

    • Local dos testes NCCL:

      • all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

      • Para executar testes NCCL, o LD_LIBRARY_PATH precisa ser aprovado com as atualizações abaixo.

        • PATHs Os comuns já foram adicionados ao LD_LIBRARY_PATH:

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.

  • Instalador EFA: 1.38.0

  • GDRCopy: 2,4

  • AWS OFI NCCL: 1.13.2

    • Localização do sistema:/usr/local/cuda-xx.x/efa

    • Isso é adicionado para executar testes NCCL localizados em/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

    • Além disso, o PyTorch pacote vem com o plug-in AWS OFI NCCL vinculado dinamicamente como um pacote conda e também PyTorch usará esse aws-ofi-nccl-dlc pacote em vez do sistema OFI NCCL. AWS

  • Localização dos testes NCCL:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

  • AWS CLI v2 em/usr/local/bin/aws2 e AWS CLI v1 em/usr/local/bin/aws

  • Tipo de volume EBS: gp3

  • Consulte o AMI-ID com o parâmetro SSM (a região de exemplo é us-east-1):

    • Controlador OSS Nvidia:

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-oss-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
    • Driver proprietário da Nvidia:

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
  • Consulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):

    • Controlador OSS Nvidia:

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
    • Driver proprietário da Nvidia:

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Avisos

Atualizações do EFA de 1.37 para 1.38 (lançamento em 05/02/2025)

  • O EFA agora inclui o plug-in AWS OFI NCCL, que agora pode ser encontrado em/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se estiver atualizando sua variável LD_LIBRARY_PATH, certifique-se de modificar a localização do OFI NCCL corretamente.

Remoção do ambiente Neuron Conda

  • O driver Nvidia proprietário do Deep Learning AMIs lançado após 18 de julho de 2024 será enviado sem ambientes neuronconda para e. PyTorch TensorFlow Em vez disso, use o Neuron DLAMIs nas notas de lançamento do DLAMI para utilizar ambientes de neurônios.

Remoção do Audit Package

  • Os DLAMI lançados entre 26 de março de 2024 (2024-03-26) e 12 de abril de 2024 (2024-04-12) foram enviados sem o pacote de auditoria. Se você precisar desse pacote específico para suas necessidades de registro e monitoramento, migre seus fluxos de trabalho para o DLAMI mais recente para consumir aqueles com o pacote de auditoria instalado.

Horovod

  • O Horovod foi removido dos ambientes conda pytorch_p310 e tensorflow2_p310 atuais no DLAMI. Os clientes poderão instalar as bibliotecas do horovod seguindo as diretrizes do horovod e instalá-las em seus trabalhos de treinamento DLAMIs distribuídos.

Data de lançamento: 2025-04-22

Nomes da AMI
  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 81.2

  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 81.2

Atualizado

Data de lançamento: 2025-02-17

Nomes da AMI
  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 80.6

  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 80.4

Atualizado

Removido

Data de lançamento: 2025-02-05

Nomes da AMI
  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 80.2

  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 80.4

Atualizado

  • Versão EFA atualizada de 1.37.0 para 1.38.0

    • O EFA agora inclui o plug-in AWS OFI NCCL, que agora pode ser encontrado em/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se estiver atualizando sua variável LD_LIBRARY_PATH, certifique-se de modificar a localização do OFI NCCL corretamente.

Data de lançamento: 2025-01-15

Nomes da AMI
  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 80.3

  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 80.1

Atualizado

Data de lançamento: 2024-12-09

Nomes da AMI
  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 80.1

  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 79.9

Atualizado

  • Kit de ferramentas de contêiner Nvidia atualizado da versão 1.17.0 para 1.17.3

Data de lançamento: 2024-11-11

Nomes da AMI
  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 79.9

  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 79.7

Atualizado

Data de lançamento: 2024-10-22

Nomes da AMI
  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 79.6

  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 79.6

Atualizado

Data de lançamento: 2024-10-03

Nomes da AMI
  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 79.3

  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 79.3

Atualizado

Data de lançamento: 2024-07-18

Nomes da AMI
  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 78.6

  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 78.7

Atualizado

  • Os ambientes conda aws_neuron_pytorch_p38 e aws_neuron_tensorflow_p38 foram removidos da AMI de driver Nvidia proprietária de aprendizado profundo.

  • O suporte à família de instâncias Inf1 foi removido da AMI proprietária do driver Nvidia de aprendizado profundo.

Data de lançamento: 2024-06-06

Nomes da AMI
  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 78.5

  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 78.5

Atualizado

  • Versão atualizada do driver Nvidia para 535.183.01 de 535.161.08

Data de lançamento: 2024-05-17

Nomes da AMI
  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 78.1

  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 78.1

Atualizado

Data de lançamento: 2024-05-07

Nomes da AMI
  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 78.0

  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 78.0

Atualizado

Adicionado

  • Foi adicionada uma pilha CUDA12 3.0 com 3.3, NCCL CUDA12 2.21.5, cuDNN 8.9.7

Removido

Data de lançamento: 2024-04-04

Nomes da AMI
  • Aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 77.0

  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 77.0

Atualizado

  • PyTorch versão atualizada de 2.1 para 2.2 no ambiente pytorch_p310.

  • Para o driver OSS Nvidia DLAMIs, adicionou suporte às instâncias G6 e EC2 Gr6. Consulte a página de seleção de EC2 instâncias para obter mais informações.

Data de lançamento: 2024-03-29

Nomes da AMI
  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 76.8

  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 76.9

Atualizado

  • Driver Nvidia atualizado de 535.104.12 para 535.161.08 nos drivers Proprietário e OSS Nvidia. DLAMIs

  • As novas instâncias suportadas para cada DLAMI são as seguintes:

    • O Deep Learning com driver proprietário da Nvidia suporta G3 (G3.16x não suportado), P3, P3dn, Inf1

    • Aprendizado profundo com OSS O driver Nvidia suporta G4dn, G5, P4d, P4de.

Removido

  • Removido o suporte às EC2 instâncias G4dn, G5 e G3.16x do driver proprietário da Nvidia DLAMI.

Versão 76.8

Data de lançamento: 2024-03-20

Nomes da AMI
  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 76.8

Adicionado

  • Foi adicionado awscliv2 na AMI como/na AMI proprietária usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/aws do driver Nvidia

Versão 76.7

Data de lançamento: 2024-03-20

Nomes da AMI
  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 76.7

Adicionado

  • Foi adicionado awscliv2 na AMI como/usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/awsno OSS Nvidia Driver AMI

  • O driver OSS Nvidia DLAMI atualizado com suporte para G4dn e G5, com base nele, o suporte atual é o seguinte:

    • A AMI de driver Nvidia proprietária da Deep Learning Base (Amazon Linux 2) suporta P3, P3dn, G3, G5, G4dn.

    • O Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) suporta G4dn, G5, P4, P5.

  • Recomenda-se que o driver DLAMIs OSS Nvidia seja usado para G4dn, G5, P4, P5.

Versão 76.3

Data de lançamento: 2024-02-14

Atualizado

  • Atualizado TensorFlow de 2.13.0 para 2.15.0

  • EFA atualizado de 1.29.0 para 1.30.0

  • AWS-OFI-NCCL atualizado de 1.7.3-aws para 1.7.4-aws

  • Driver Nvidia atualizado para 535.104.12 na AMI de driver Nvidia proprietária de aprendizado profundo

  • Driver Nvidia atualizado para 535.154.05 no Deep Learning OSS Nvidia Driver AMI

Versão 76.2

Data de lançamento: 2024-02-02

Nomes da AMI
  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 76.2

  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 76.4

Segurança

Versão 76.1

Data de lançamento: 2023-12-27

Atualizado

  • Atualizado PyTorch de 2.0.1 para 2.1.0

Versão 75.1

Data de lançamento: 2023-11-17

Consulte Alterações importantes no DLAMI

Nomes da AMI
  • Driver AMI OSS Nvidia de aprendizado profundo (Amazon Linux 2) versão 75.1

  • AMI de driver Nvidia proprietário de aprendizado profundo (Amazon Linux 2) versão 75.1

Adicionado

  • AWS A AMI de aprendizado profundo (DLAMI) é dividida em dois grupos separados:

    • DLAMI que usa o driver proprietário da Nvidia (para suportar P3, P3dn, G3, G5, G4dn).

    • DLAMI que usa o driver Nvidia OSS para habilitar o EFA (para suportar P4, P5).

  • Consulte o anúncio público para obter mais informações sobre a divisão do DLAMI.

  • AWS As consultas cli acima estão nas notas de lançamento em bullet point Query AMI-ID com (a região de exemplo é us-east-1) AWSCLI

Atualizado

  • EFA atualizado de 1.26.1 para 1.29.0

  • GDRCopy atualizado de 2.3 para 2.4

Versão 74.4

Data de lançamento: 2023-10-27

Atualizado

Adicionado

  • O Kernel Live Patching agora está habilitado. A aplicação dinâmica de patches permite que os clientes apliquem vulnerabilidades de segurança e correções de bugs críticos a um kernel Linux em execução, sem reinicializações ou interrupções na execução de aplicativos.

Versão 74.0

Data de lançamento: 2023-07-19

Atualizado

  • Atualizado TensorFlow de 2.12 para 2.13

    • O Horovod foi removido do ambiente conda nesta versão. Consulte o Aviso para obter detalhes sobre a instalação do horovod.

Versão 73.1

Data de lançamento: 2023-06-12

Atualizado

  • Atualizado PyTorch de 2.0.0 para 2.0.1