AWS AMI de base de aprendizado profundo (Amazon Linux 2) - AMIs de deep learning da AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS AMI de base de aprendizado profundo (Amazon Linux 2)

Para obter ajuda para começar, consulteConceitos básicos da DLAMI.

Formato de nome da AMI

  • Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão $ {XX.X}

  • Versão $ {XX.X} do driver Nvidia Driver AMI (Amazon Linux 2) da Deep Learning Base

EC2 Instâncias suportadas

  • Consulte Alterações importantes no DLAMI.

  • Aprendizado profundo com OSS O driver Nvidia suporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en

  • O Deep Learning com driver proprietário da Nvidia suporta G3 (G3.16x não suportado), P3, P3dn

A AMI inclui o seguinte:

  • AWS Serviço suportado: Amazon EC2

  • Sistema operacional: Amazon Linux 2

  • Arquitetura de computação: x86

  • A versão mais recente disponível está instalada para os seguintes pacotes:

    • Kernel Linux: 5.10

    • Docker

    • AWS CLI v2 em/usr/local/bin/aws2 e AWS CLI v1 em/usr/bin/aws

    • Kit de ferramentas de contêiner Nvidia:

      • Comando de versão: nvidia-container-cli -V

    • NVIDIA-Docker 2:

      • Comando de versão: versão nvidia-docker

  • Python:/3.7 usr/bin/python

  • Controlador NVIDIA:

    • Controlador OSS Nvidia: 550.163.01

    • Driver proprietário da Nvidia: 550.163.01

  • Pilha NVIDIA CUDA 12.1-12.4:

    • Diretórios de instalação CUDA, NCCL e cuDDN:/-xx.x/ usr/local/cuda

    • CUDA padrão: 12.1

      • PATH/usr/local/cudaaponta para CUDA 12.1

      • Variáveis de ambiente atualizadas abaixo:

        • LD_LIBRARY_PATH para ter/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • PATH para ter/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/

        • Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.

    • Versão compilada da NCCL: 2.22.3

    • Local dos testes NCCL:

      • all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

      • Para executar testes NCCL, o LD_LIBRARY_PATH precisa ser aprovado com as atualizações abaixo.

        • PATHs Os comuns já foram adicionados ao LD_LIBRARY_PATH:

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.

  • Instalador EFA: 1.38.0

  • Nvidia GDRCopy: 2.4

  • AWS OFI NCCL: 1.13.2

    • AWS O OFI NCCL agora suporta várias versões do NCCL com uma única compilação

    • O caminho de instalação:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib64 é adicionado ao LD_LIBRARY_PATH.

  • Tipo de volume do EBS: gp3

  • Consulte o AMI-ID com o parâmetro SSM (a região do exemplo é us-east-1):

    • Controlador OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-amazon-linux-2/latest/ami-id  \ --query "Parameter.Value" \ --output text
    • Driver proprietário da Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Consulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):

    • Controlador OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • Driver proprietário da Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Avisos

Kit de ferramentas de contêiner NVIDIA 1.17.4

No Container Toolkit versão 1.17.4, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêiner, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial Se você usar uma camada de compatibilidade CUDA.

Atualizações do EFA de 1.37 para 1.38 (lançamento em 04/02/2025)

O EFA agora inclui o plug-in AWS OFI NCCL, que agora pode ser encontrado em/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se estiver atualizando sua variável LD_LIBRARY_PATH, certifique-se de modificar a localização do OFI NCCL corretamente.

Política de suporte

Esses AMIs componentes dessa AMI, como as versões CUDA, podem ser removidos e alterados com base na política de suporte da estrutura ou para otimizar o desempenho de contêineres de aprendizado profundo ou para reduzir o tamanho da AMI em uma versão futura, sem aviso prévio. Removemos as versões CUDA AMIs se elas não forem usadas por nenhuma versão de estrutura compatível.

EC2 instâncias com várias placas de rede
  • Muitos tipos de instâncias que oferecem suporte ao EFA também têm várias placas de rede.

  • DeviceIndex é exclusivo para cada placa de rede e deve ser um número inteiro não negativo menor que o limite de ENIs per. NetworkCard Em P5, o número de ENIs per NetworkCard é 2, o que significa que os únicos valores válidos para DeviceIndex são 0 ou 1.

    • Para a interface de rede primária (índice da placa de rede 0, índice do dispositivo 0), crie uma interface EFA (EFA com ENA). Você não pode usar uma interface de rede exclusiva do EFA como interface de rede primária.

    • Para cada interface de rede adicional, use o próximo índice de placa de rede não utilizada, o índice de dispositivo 1 e uma interface de rede EFA (EFA com ENA) ou somente EFA, dependendo do seu caso de uso, como requisitos de largura de banda do ENA ou espaço de endereço IP. Por exemplo, casos de uso, consulte a configuração do EFA para instâncias P5.

    • Para obter mais informações, consulte o Guia EFA aqui.

Instâncias P5/P5e
  • As instâncias P5 e P5e contêm 32 placas de interface de rede e podem ser iniciadas usando o seguinte comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
5 instâncias abertas
  • O P5en contém 16 placas de interface de rede e pode ser iniciado usando o seguinte comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • A versão do kernel é fixada usando o comando:

    sudo yum versionlock kernel*
  • Recomendamos que os usuários evitem atualizar a versão do kernel (a menos que seja devido a um patch de segurança) para garantir a compatibilidade com os drivers instalados e as versões do pacote. Se os usuários ainda quiserem atualizar, eles podem executar os seguintes comandos para liberar suas versões do kernel:

    sudo yum versionlock delete kernel* sudo yum update -y
  • Para cada nova versão do DLAMI, o kernel compatível mais recente disponível é usado.

Data de lançamento: 2025-04-22

Nomes da AMI
  • Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 69.3

  • AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 67.0

Atualizado

Data de lançamento: 2025-02-17

Nomes da AMI
  • Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 68.5

  • AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 66.3

Atualizado

Removido

  • As bibliotecas de espaço do usuário cuobj e nvdisasm foram removidas fornecidas pelo kit de ferramentas NVIDIA CUDA para abordar as CVEs presentes no boletim de segurança do kit de ferramentas NVIDIA CUDA de 18 de fevereiro de 2025

Data de lançamento: 2025-02-04

Nomes da AMI
  • Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 68.4

  • AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 66.1

Atualizado

  • Versão EFA atualizada de 1.37.0 para 1.38.0

Data de lançamento: 2025-01-17

Nomes da AMI
  • Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 68.3

  • AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 66.0

Atualizado

Data de lançamento: 2025-01-06

Nomes da AMI
  • Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 68.2

  • AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 65.9

Atualizado

  • EFA atualizado da versão 1.34.0 para 1.37.0

  • AWS OFI NCCL atualizado da versão 1.11.0 para 1.13.0

Data de lançamento: 2024-12-09

Nomes da AMI
  • Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 68.1

  • AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 65.8

Atualizado

  • Kit de ferramentas de contêiner Nvidia atualizado da versão 1.17.0 para 1.17.3

Data de lançamento: 2024-11-09

Nomes da AMI
  • Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 67.9

  • AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 65.6

Atualizado

Data de lançamento: 2024-10-22

Nomes da AMI
  • Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 67.7

  • AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 65.4

Atualizado

Data de lançamento: 2024-10-03

Nomes da AMI
  • Versão AMI do driver OSS Nvidia da Base de Aprendizado Profundo (Amazon Linux 2)

  • AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 65.2

Atualizado

Data de lançamento: 2024-08-27

Nome da AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versão 67.0

Atualizado

  • Driver Nvidia e Fabric Manager atualizados da versão 535.183.01 para 550.90.07

  • Versão EFA atualizada de 1.32.0 para 1.34.0

  • NCCL atualizado para a versão mais recente 2.22.3 para todas as versões CUDA

    • CUDA 12.1, 12.2 atualizado de 2.18.5+ 2. CUDA12

    • CUDA 12.3 atualizado de 2.21.5+ 4. CUDA12

Adicionado

  • Foi adicionado o kit de ferramentas CUDA versão 12.4 no diretório/-12.4 usr/local/cuda

  • Foi adicionado suporte para instâncias P5e. EC2

Removido

  • Removida a pilha do CUDA Toolkit versão 11.8 presente no diretório/-11.8 usr/local/cuda

Data de lançamento: 2024-08-19

Nome da AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versão 66.3

Adicionado

  • Foi adicionado suporte para instâncias G6e. EC2

Data de lançamento: 2024-06-06

Nomes da AMI
  • Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 65.4

  • AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 63.9

Atualizado

  • Versão atualizada do driver Nvidia para 535.183.01 de 535.161.08

Data de lançamento: 2024-05-02

Nomes da AMI
  • Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 64.7

  • AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 63.2

Atualizado

  • Versão EFA atualizada da versão 1.30 para a versão 1.32

  • Plugin AWS OFI NCCL atualizado da versão 1.7.4 para a versão 1.9.1

  • Kit de ferramentas de contêiner Nvidia atualizado da versão 1.13.5 para a versão 1.15.0

Adicionado

  • Foi adicionada uma pilha CUDA12 3.0 com 3.3, NCCL CUDA12 2.21.5, cuDNN 8.9.7

    A versão 1.15.0 NÃO inclui os pacotes nvidia-container-runtime nvidia-docker2. É recomendável usar nvidia-container-toolkit pacotes diretamente seguindo a documentação do kit de ferramentas de contêineres da Nvidia.

Removido

  • Foram removidas as pilhas de CUDA11 0,7, CUDA12 0,0 presentes em /-12,0 usr/local/cuda-11.7 and /usr/local/cuda

  • O pacote nvidia-docker2 e seu comando nvidia-docker foram removidos como parte da atualização do kit de ferramentas de contêiner Nvidia de 1.13.5 para 1.15.0, que NÃO inclui os pacotes nvidia-docker2 e nvidia-docker2. nvidia-container-runtime

Data de lançamento: 2024-04-04

Nome da AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versão 64.0

Adicionado

  • Para o driver OSS Nvidia DLAMIs, foi adicionado suporte às instâncias G6 e Gr6 EC2

Data de lançamento: 2024-03-29

Nomes da AMI
  • Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 62.3

  • AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 63.2

Atualizado

  • Driver Nvidia atualizado de 535.104.12 para 535.161.08 nos drivers Proprietário e OSS Nvidia. DLAMIs

  • As novas instâncias suportadas para cada DLAMI são as seguintes:

    • O Deep Learning com driver proprietário da Nvidia suporta G3 (G3.16x não suportado), P3, P3dn

    • Aprendizado profundo com OSS O driver Nvidia suporta G4dn, G5, P4d, P4de, P5.

Removido

  • Removido o suporte às EC2 instâncias G4dn, G5 e G3.16x do driver proprietário da Nvidia DLAMI.

Data de lançamento: 2024-03-20

Nome da AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versão 63.1

Adicionado

  • Foi adicionado awscliv2 na AMI como/usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/awsno OSS Nvidia Driver AMI

Data de lançamento: 2024-03-13

Nome da AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versão 63.0

Atualizado

  • O driver OSS Nvidia DLAMI atualizado com suporte para G4dn e G5, com base nele, o suporte atual é o seguinte:

    • A AMI de driver Nvidia proprietária da Deep Learning Base (Amazon Linux 2) suporta P3, P3dn, G3, G4dn, G5.

    • O Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) suporta G4dn, G5, P4, P5.

  • Recomenda-se que o driver DLAMIs OSS Nvidia seja usado para G4dn, G5, P4, P5.

Data de lançamento: 2024-02-13

Nomes da AMI
  • Base de aprendizado profundo OSS Nvidia Driver AMI (Amazon Linux 2) versão 62.1

  • AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 62.1

Atualizado

  • Driver OSS Nvidia atualizado de 535.129.03 para 535.154.05

  • EFA atualizado de 1.29.0 para 1.30.0

  • AWS OFI NCCL atualizado de 1.7.3-aws para 1.7.4-aws

Data de lançamento: 2024-02-01

Nome da AMI: AMI de driver Nvidia proprietário da Deep Learning Base (Amazon Linux 2) versão 62.0

Segurança

Versão 6.1.4

Nome da AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versão 61.4

Atualizado

  • Driver OSS Nvidia atualizado de 535.104.12 para 535.129.03

Versão 61.0

Nome da AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versão 61.4

Atualizado

  • EFA atualizado de 1.26.1 para 1.29.0

  • GDRCopy atualizado de 2.3 para 2.4

Adicionado

  • AWS A AMI de aprendizado profundo (DLAMI) é dividida em dois grupos separados:

    • DLAMI que usa o driver proprietário da Nvidia (para suportar P3, P3dn, G3, G5, G4dn).

    • DLAMI que usa o driver Nvidia OSS para habilitar o EFA (para suportar P4, P5).

  • Consulte o anúncio público para obter mais informações sobre a divisão do DLAMI.

  • Para AWS CLI consultas, consulte o marcador Query AMI-ID AWSCLI com (exemplo, a região é us-east-1)

Versão 6.0.6

Nome da AMI: Deep Learning Base AMI (Amazon Linux 2) versão 60.6

Atualizado

  • AWS Plugin OFI NCCL atualizado da versão 1.7.2 para a versão 1.7.3

  • Diretórios CUDA 12.0-12.1 atualizados com NCCL versão 2.18.5

  • CUDA12.1 atualizado como a versão padrão do CUDA

    • LD_LIBRARY_PATH atualizado para ter//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin

    • Para clientes que desejam mudar para qualquer versão diferente do CUDA, defina as variáveis LD_LIBRARY_PATH e PATH adequadamente.

Adicionado

  • O Kernel Live Patching agora está habilitado. A aplicação dinâmica de patches permite que os clientes apliquem vulnerabilidades de segurança e correções de bugs críticos a um kernel Linux em execução, sem reinicializações ou interrupções na execução de aplicativos. Observe que o suporte de patches ao vivo para o kernel 5.10.192 terminará em 30/11/23.

Versão 60.5

Nome da AMI: Deep Learning Base AMI (Amazon Linux 2) versão 60.5

Atualizado

  • Driver NVIDIA atualizado de 535.54.03 para 535.104.12

    Esse driver mais recente corrige as alterações importantes da ABI do NVML encontradas no driver 535.54.03, bem como a regressão do driver encontrada no driver 535.86.10 que afetou os kits de ferramentas CUDA nas instâncias P5. Consulte as seguintes notas de lançamento da NVIDIA para obter detalhes sobre as correções:

    • 4235941 - Correção de alteração de falhas na ABI do NVML

    • 4228552 - Correção de erro do kit de ferramentas CUDA

  • Diretórios CUDA 12.2 atualizados com NCCL 2.18.5

  • EFA atualizado de 1.24.1 para a última 1.26.1

Adicionado

  • Adicionado CUDA12 1.2 em usr/local/cuda /-12.2

Removido

  • Suporte removido para CUDA 11.5 e CUDA 11.6

Versão 60.2

Nome da AMI: Deep Learning Base AMI (Amazon Linux 2) versão 60.2

Atualizado

  • aws-ofi-ncclPlugin atualizado de v1.7.1 para v1.7.2

Versão 60.0

Data de lançamento: 2023-08-11

Adicionado

  • Essa AMI agora fornece suporte para a funcionalidade de treinamento de vários nós no P5 e em todas as instâncias suportadas anteriormente EC2

  • Para EC2 instâncias P5, recomenda-se que o NCCL 2.18 seja usado e foi adicionado a CUDA12 .0 e .1. CUDA12

Removido

  • Suporte removido para CUDA11 .5.

Versão 59.2

Data de lançamento: 2023-08-08

Removido

  • CUDA-11.3 e CUDA-11.4 removidos

Versão 59.1

Data de lançamento: 2023-08-03

Atualizado

  • Plugin AWS OFI NCCL atualizado para v1.7.1

  • Feito em CUDA11 0,8 como padrão, pois PyTorch 2.0 suporta 11,8 e, para a EC2 instância P5, é recomendável usar >= .8 CUDA11

    • LD_LIBRARY_PATH atualizado para ter//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin

    • Para qualquer versão diferente do cuda, defina LD_LIBRARY_PATH adequadamente.

Fixo

  • Corrigido o problema de carregamento do pacote Nvidia Fabric Manager (FM) mencionado na data de lançamento anterior de 2023-07-19.

Versão 58.9

Data de lançamento: 2023-07-19

Atualizado

  • Driver Nvidia atualizado de 525.85.12 para 535.54.03

  • Instalador EFA atualizado de 1.22.1 para 1.24.1

Adicionado

  • Foram adicionadas alterações no estado c para desativar o estado ocioso do processador, definindo o estado c máximo como C1. Essa alteração é feita definindo `intel_idle.max_cstate=1 processor.max_cstate=1` nos argumentos de inicialização do linux no arquivo/etc/default/grub

  • AWS EC2 Suporte à instância P5:

    • Foi adicionado suporte à EC2 instância P5 para fluxos de trabalho usando um único nó/instância. O suporte a vários nós (por exemplo, para treinamento em vários nós) usando o EFA (Elastic Fabric Adapter) e o plug-in AWS OFI NCCL será adicionado em uma versão futura.

    • Use CUDA>=11,8 para um desempenho ideal.

    • Problema conhecido: o pacote Nvidia Fabric Manager (FM) leva tempo para carregar no P5, os clientes precisam esperar de 2 a 3 minutos até que o FM seja carregado após iniciar a instância P5. Para verificar se o FM foi iniciado, execute o comando sudo systemctl is-active nvidia-fabricmanager, ele deve retornar ativo antes de iniciar qualquer fluxo de trabalho. Isso será corrigido na próxima versão.

Versão 58.0

Data de lançamento: 2023-05-19

Removido

  • A pilha CUDA11 .0-11.2 foi removida de acordo com a política de suporte mencionada na seção superior deste documento.

Versão 5.7.3

Data de lançamento: 2023-04-06

Adicionado

  • Adicionado Nvidia 2.3 GDRCopy

Versão 5.6.8

Data de lançamento: 2023-03-09

Atualizado

  • Driver NVIDIA atualizado de 515.65.01 para 525.85.12

Adicionado

  • Adicionado cuda-11.8 em/-11.8/ usr/local/cuda

Versão 56.0

Data de lançamento: 2022-12-06

Atualizado

  • Versão EFA atualizada de 1.17.2 para 1.19.0

Versão 55.0

Data de lançamento: 2022-11-04

Atualizado

  • Driver NVIDIA atualizado de 510.47.03 para 515.65.01

Adicionado

  • Adicionado cuda-11.7 em/-11.7/ usr/local/cuda

Versão 54.0

Data de lançamento: 2022-09-15

Atualizado

  • Versão EFA atualizada de 1.16.0 para 1.17.2

Versão 53.3

Data de lançamento: 2022-05-25

Atualizado

  • Atualizado aws-efa-installer para a versão 1.15.2

  • Atualizado aws-ofi-nccl para a versão 1.3.0-aws, que inclui a topologia para p4de.24xlarge.

Adicionado

  • Esta versão adiciona suporte para instâncias EC2 p4de.24xlarge.

Versão 53.0

Data de lançamento: 2022-04-28

Adicionado

  • CloudWatch Agente Amazon adicionado

  • Foram adicionados três serviços systemd que usam arquivos json predefinidos disponíveis em path/opt/aws/amazon-cloudwatch-agent/etc/para configurar métricas de GPU usando o usuário linux cwagent

    • dlami-cloudwatch-agent@minimal

      • Comandos para ativar as métricas da GPU:

        sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal
      • Ele cria essas métricas:utilization_gpu, utilization_memory

    • dlami-cloudwatch-agent@partial

      • Comandos para ativar as métricas da GPU:

        sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial
      • Ele cria essas métricas:utilization_gpu,utilization_memory,memory_total,memory_used, memory_free

    • dlami-cloudwatch-agent@all

      • Comandos para ativar as métricas da GPU:

        sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all
      • Ele cria todas as métricas de GPU disponíveis

Versão 52.0

Data de lançamento: 2022-03-08

Atualizado

  • Versão atualizada do Kernel para 5.10

Versão 51.0

Data de lançamento: 2022-03-04

Atualizado

  • Driver Nvidia atualizado para 510.47.03

Versão 50.0

Data de lançamento: 2022-02-17

Atualizado

  • Bloqueados aws-neuron-dkms e à tensorflow-model-server-neuron medida que são atualizados para versões mais recentes, que não são suportadas pelos pacotes Neuron presentes na AMI

    • Comandos se o cliente quiser desbloquear o pacote para atualizá-lo para a versão mais recente: sudo yum versionlock delete sudo yum versionlock delete aws-neuron-dkms tensorflow-model-server-neuron

Versão 49.0

Data de lançamento: 2022-01-13

Adicionado

  • Foi adicionado CUDA11 1.2 com os seguintes componentes:

    • cuDNN v8.1.1.33

    • NCCL 2.8.4

    • CUDA 11.2.2

Atualizado

  • Link simbólico atualizado pip para pip3

Defasagens

  • Suporte obsoleto para o tipo de instância P2

  • O python2.7 foi descontinuado e os pacotes relacionados do python2.7 foram removidos, como “python-dev”, “python-pip” e “python-tk”

Versão 48.0

Data de lançamento: 2021-12-27

Atualizado

  • O org.apache.ant_1.9.2.v201404171502\ lib\ ant-apache-log 4j.jar das versões cuda foi removido, pois ele não está sendo usado e não há risco para os usuários que têm os arquivos Log4j. Para obter mais informações, consulte https://nvidia.custhelp.com/app/answers/detail/a_id/5294.

Versão 47.0

Data de lançamento: 2021-11-24

Atualizado

  • EFA atualizado para 1.14.1

Versão 46.0

Data de lançamento: 2021-11-12

Atualizado

  • Pacotes Neuron atualizados de aws-neuron-dkms =1.5. *, aws-neuron-runtime-base =1,5. *, aws-neuron-tools =1,6.* a =2,2. aws-neuron-dkms *, aws-neuron-runtime-base =1,6. *, aws-neuron-tools =2,0.*.

  • O pacote Neuron foi removido aws-neuron-runtime =1.5.*, pois o Neuron não tem mais um tempo de execução em execução como daemon e o tempo de execução agora está integrado à estrutura como uma biblioteca.

Versão 45.0

Data de lançamento: 2021-10-21

Adicionado

  • Os relatórios de verificação de segurança no formato JSON estão disponíveis em/opt/aws/dlami/info/.

Versão 44.0

Data de lançamento: 2021-10-08

Alterado

  • Para cada execução de instância usando DLAMI, a tag aws-dlami-autogenerated-tag "do-not-delete-" será adicionada, AWS permitindo coletar o tipo de instância, o ID da instância, o tipo de DLAMI e as informações do sistema operacional. Nenhuma informação sobre os comandos usados na DLAMI é coletada ou retida. Nenhuma outra informação sobre a DLAMI é coletada ou retida. Para desativar o rastreamento de uso do seu DLAMI, adicione uma tag à sua instância da EC2 Amazon durante o lançamento. A tag deve usar a chave OPT_OUT_TRACKING com o valor associado definido como true. Para obter mais informações, consulte Marcar seus EC2 recursos da Amazon.

Segurança

  • Versão atualizada do docker para docker-20.10.7-3

Versão 43.0

Data de lançamento: 2021-08-24

Alterado

  • “notebook” atualizado para a versão “6.4.1".

Versão 42.0

Data de lançamento: 2021-07-23

Alterado

  • O driver Nvidia e a versão do Fabric Manager foram atualizados para 450.142.00.

Versão 41.0

Data de lançamento: 2021-06-24

Alterado

  • Pacotes Neuron atualizados de acordo com o Neuron Release v1.14.0

Versão 40.0

Data de lançamento: 2021-06-10

Alterado

  • Versão awscli atualizada para 1.19.89

Versão 39.0

Data de lançamento: 2021-05-27

Segurança

  • Componentes vulneráveis do CUDA-10.0 (Visual Profiler, Nsight EE e JRE) foram removidos da instalação do CUDA-10.0 (/-10.0). usr/local/cuda

Versão 38.0

Data de lançamento: 2021-05-25

Alterado

  • Runc atualizado para o mais recente

Versão 37.0

Data de lançamento: 2021-04-23

Alterado

  • O driver Nvidia Tesla e a versão do Fabric Manager foram atualizados para 450.119.03.

Versão 36.1

Data de lançamento: 2021-04-21

Fixo

  • Corrigido um problema que diminuía a velocidade de inicialização da instância.

Versão 36.0

Data de lançamento: 2021-03-24

Adicionado

  • Adicionado tensorflow-model-server-neuron para oferecer suporte ao serviço de modelos de neurônios.

Alterado

  • O jupyterlab foi atualizado para a versão 3.0.8 para python3.

Fixo

  • A instalação antiga do OpenMPI emusr/local/mpi caused /opt/amazon/openmpi/bin/mpirun to be linked incorrectly. To fix the link issue, we removed /usr/local/mpi installation, OpenMPI installation in /opt/amazon/openmpi/está disponível.

  • Remova a definição duplicada e inexistente de ambientes de shell que estão poluindo as variáveis de ambiente de shell, como PATH e LD_LIBRARY_PATH. Como resultado, ~/.dlami e/etc/profile.d/var.sh has been removed, and /etc/profile.d/dlami.sh foram adicionados.

Segurança

Versão 35.0

Data de lançamento: 2021-03-08

Adicionado

  • Instalação adicionada do TensorRT CUDA 11.0

Versão 34.3

Data de lançamento: 2021-02-25

Fixo

  • Corrigido um erro de digitação no MOTD (mensagem do dia) que exibia incorretamente a versão 34.1.

Versão 34.2

Data de lançamento: 2021-02-24

Segurança

  • Python2 e python3 corrigidos para CVE-2021-3177

Problema conhecido

  • Há um erro de digitação na MOTD (mensagem do dia) que exibiu incorretamente a versão 34.1. Lançaremos a versão 34.3 para resolver esse problema.

Versão 34.0

Data de lançamento: 2021-02-09

Alterado

  • Fixado o pip na versão 20.3.4 para python2, esta é a última versão do pip que suporta python2 e python3.5.

Versão 33.0

Data de lançamento: 2021-01-19

Alterado

  • Versão cuDNN atualizada para CUDA11 v8.0.5.39 em .0 e .1. CUDA11

Versão 32.0

Data de lançamento: 2020-12-01

Adicionado

  • Foi adicionado CUDA11 1 com NCCL 2.7.8, cuDNN 8.0.4.30 para AMI de aprendizado profundo (Amazon Linux 2), AMI de aprendizado profundo (Ubuntu 16.04), AMI de aprendizado profundo (Ubuntu 18.04), AMI de base de aprendizado profundo (Ubuntu 16.04), AMI de base de aprendizado profundo (Ubuntu 18.04), AMI de base de aprendizado profundo (Amazon Linux 2).

Versão 31.0

Data de lançamento: 2020-11-02

Alterado

  • Instalador EFA atualizado para a versão 1.10.0.

  • Versão cuDNN atualizada para v8.0.4.30 para CUDA 11.0.

  • AWS Neuron atualizado para a versão 1.1

Versão 30.0

Data de lançamento: 2020-10-08

Alterado

  • Versões atualizadas do driver NVIDIA e do Fabric Manager para 450.80.02

  • NCCL atualizado para 2.7.8 in for 0. CUDA11

Fixo

  • Corrigido um problema em que o pacote python gerenciado yum era substituído por instalações gerenciadas por pip. Os executáveis pip, pip3 e pip3.7 foram movidos de/parte dessa correção. usr/binto /usr/local/binas

Versão 29.0

Data de lançamento: 2020-09-11

Alterado

  • Driver NVIDIA atualizado da versão 450.51.05 para 450.51.06

  • Adicionado o NVIDIA Fabric Manager versão 450.51.06

  • EFA atualizado para 1.9.4

Versão 28.0

Data de lançamento: 2020-08-19

Alterado

  • Foi adicionada a pilha CUDA 11.0 com NCCL 2.7.6 e cuDNN 8.0.2.39

Versão 27.0

Data de lançamento: 2020-08-07

Alterado

  • EFA atualizado da versão 1.7.1 para 1.9.3 em/opt/amazon/efa

  • O Open MPI atualizado da versão 4.0.3 para 4.0.4 em usr/local/mpi’. Open MPI at ‘/opt/amazon/openmpi/bin/mpirun '/' ainda está na versão 4.0.3

  • Driver NVIDIA atualizado de 440.33.01 para 450.51.05

  • Versão NCCL atualizada de 2.6.4 para 2.7.6 em 0.2 CUDA1

Versão 26.0

Data de lançamento: 2020-08-03

Alterado

  • AWS OFI NCCL atualizado para o mais recente, veja aqui para obter mais detalhes.

  • O Cuda 8.0/9.0/9.2 foi removido da AMI

Fixo

  • Corrigido um erro em que o arquivo de objeto compartilhado: libopencv_dnn.so.4.2 não podia ser aberto.

Versão 25.0

Data de lançamento: 2020-07-19

Alterado

  • Versão EFA atualizada para 1.7.1 para suportar NCCL 2.6.4

  • Versão NCCL atualizada para 2.6.4 para CUDA 10.2

  • versão awscli atualizada de 1.16.76 para 1.18.80

  • versão boto3 atualizada de 1.9.72 para 1.14.3

Versão 24.1

Data de lançamento: 2020-06-14

Alterado

  • Versão do Docker atualizada para 19.03.6

Versão 24.0

Data de lançamento: 2020-05-20

Alterado

  • Versão do Docker atualizada para 19.03.6

Versão 23.0

Data de lançamento: 2020-04-29

Alterado

  • Versões atualizadas do pacote python

Versão 22.0

Data de lançamento: 2020-03-04

Alterado

  • Foi adicionada a pilha CUDA 10.2

  • CUDA 10.0 e 10.1 atualizados para as versões cuDNN e NCCL