AMI base de aprendizado profundo da AWS com GPU (Ubuntu 20.04)
Aviso de fim do suporte
O Ubuntu Linux 20.04 LTS está chegando ao fim da janela de LTS de cinco anos em 31 de maio de 2025 e não o fornecedor não fornece mais suporte. Consequentemente, a AMI base de aprendizado profundo da AWS (Ubuntu 20.04) não receberá mais atualizações após 31 de maio de 2025. As versões anteriores continuarão disponíveis. Observe que qualquer AMI lançada publicamente será descontinuada pelo EC2 após dois anos de sua data de criação. Consulte mais informações em Descontinuar uma AMI do Amazon EC2.
Por três meses, até 31 de agosto de 2025, o suporte será fornecido somente para problemas de funcionalidade (não para patches de segurança).
Os usuários da DLAMI do Ubuntu 20.04 devem migrar para a AMI base para aprendizado profundo da AWS com GPU (Ubuntu 22.04)
ou a AMI base para aprendizado profundo da AWS com GPU (Ubuntu 24.04) . Como alternativa, é possível usar a AMI base de aprendizado profundo da AWS (Amazon Linux 2023) .
Se precisar de ajuda para começar, consulte Conceitos básicos da DLAMI.
Formato do nome da AMI
AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) ${YYYY-MM-DD}
AMI base do driver proprietário do Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) ${YYYY-MM-DD}
Instâncias do EC2 com suporte
Consulte Alterações importantes no DLAMI.
O aprendizado profundo com driver OSS Nvidia é compatível com G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e e P5en
Aprendizado profundo com driver proprietário da Nvidia compatível com G3 (G3.16x incompatível), P3, P3dn
A AMI inclui o seguinte:
Serviço da AWS compatível: Amazon EC2
Sistema operacional: Ubuntu 20.04
Arquitetura de computação: x86
A versão mais recente disponível está instalada para os seguintes pacotes:
Linux Kernel 5.15
FSx Lustre
Docker
AWS CLI v2 em /usr/local/bin/aws2 e AWS CLI v1 em /usr/bin/aws
NVIDIA DCGM
Nvidia Container Toolkit:
Comando de versão: nvidia-container-cli -V
Nvidia-docker2:
Comando de versão: versão nvidia-docker
Driver NVIDIA:
Driver Nvidia OSS: 550.163.01
Driver proprietário da Nvidia: 550.163.01
Pilha NVIDIA CUDA 11.7, 12.1-12.4:
Diretórios de instalação de CUDA, NCCL e cuDDN: /usr/local/cuda-xx.x/
Exemplo: /usr/local/cuda-12.1/
Versão NCCL compilada: 2.22.3+CUDA12.4
CUDA padrão: 12.1
PATH /usr/local/cuda direciona para CUDA 12.1
Variáveis de ambiente atualizadas abaixo:
LD_LIBRARY_PATH para ter /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PATH para ter /usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/
Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.
Local dos testes NCCL:
all_reduce, all_gather and reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/
Para executar testes NCCL, o LD_LIBRARY_PATH precisa ser aprovado com as atualizações abaixo.
PATHs comuns já foram adicionados a LD_LIBRARY_PATH:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.
Instalador do EFA: 1.39.0
Nvidia GDRCopy: 2.4
Plug-in OFI NCCL da AWS: é instalado como parte do EFA Installer-aws
O AWS OFI NCCL agora é compatível com várias versões do NCCL com uma única compilação
Caminho de instalação: /opt/aws-ofi-nccl/ . O caminho /opt/aws-ofi-nccl/lib foi adicionado a LD_LIBRARY_PATH.
Caminho de testes para ring, message_transfer: /opt/aws-ofi-nccl/tests
Tipo de volume do EBS: gp3
Python: /usr/bin/python3.9
Local de armazenamento de instância NVMe (em instâncias do EC2 compatíveis): /opt/dlami/nvme
Consulte o AMI-ID com o parâmetro SSM (a região de exemplo é us-east-1):
Driver OSS Nvidia:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output textDriver proprietário da Nvidia:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
Consulte o AMI-ID com o parâmetro SSM (a região de exemplo é us-east-1):
Driver OSS Nvidia:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output textDriver proprietário da Nvidia:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Avisos
NVIDIA Container Toolkit 1.17.4
No NVIDIA Container Toolkit versão 1.17.4, a montagem das bibliotecas compatíveis com CUDA agora está desabilitada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêiner, atualize o LD_LIBRARY_PATH para incluir as bibliotecas compatíveis com CUDA, conforme mostrado no tutorial Se você usa uma camada de compatibilidade com CUDA.
Atualizações do EFA de 1.37 para 1.38 (lançamento em 2025-02-04)
O EFA agora inclui o plug-in AWS OFI NCCL, que pode ser encontrado em /opt/amazon/ofi-nccl em vez do original /opt/aws-ofi-nccl/. Se estiver atualizando sua variável LD_LIBRARY_PATH, certifique-se de modificar a localização do OFI NCCL corretamente.
Política de suporte
Componentes dessa AMI, como as versões do CUDA, podem ser removidos e alterados com base na política de suporte de framework ou para otimizar o desempenho de contêineres de deep learning
Instâncias do EC2 com várias placas de rede
Muitos tipos de instâncias que oferecem suporte ao EFA também têm várias placas de rede.
DeviceIndex é exclusivo para cada placa de rede e deve ser um número inteiro não negativo menor que o limite de ENIs por NetworkCard. Em P5, o número de ENIs por NetworkCard é 2, o que significa que os únicos valores válidos para DeviceIndex são 0 ou 1.
Para a interface de rede primária (índice da placa de rede 0, índice do dispositivo 0), crie uma interface EFA (EFA com ENA). Você não pode usar uma interface de rede exclusiva do EFA como interface de rede primária.
Para cada interface de rede adicional, use o próximo índice de placa da rede não utilizado, o índice do dispositivo 1 e uma interface de rede EFA (EFA com ENA) ou somente EFA, dependendo do seu caso de uso, como requisitos de largura de banda do ENA ou espaço de endereço IP. Consulte exemplos de casos de uso na configuração do EFA para instâncias P5.
Consulte mais informações no Guia do EFA aqui.
Instâncias P5/P5e
As instâncias P5 e P5e contêm 32 placas de interface de rede e podem ser iniciadas usando o seguinte comando da AWS CLI:
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instâncias P5en
A P5en contêm 16 placas de interface de rede e podem ser iniciadas usando o seguinte comando da AWS CLI:
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
A versão do kernel é fixa usando o comando:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selectionsRecomendamos que os usuários evitem atualizar a versão do kernel (a menos que seja devido a um patch de segurança) para garantir a compatibilidade com os drivers instalados e as versões do pacote. Se os usuários ainda quiserem atualizar, eles poderão executar os seguintes comandos para desafixar suas versões do kernel:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selectionsPara cada nova versão da DLAMI, o kernel compatível mais recente disponível é usado.
Data de lançamento: 2025-04-24
Nomes de AMI
AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20250424
AMI base do driver proprietário da Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20250424
Atualização
Atualização do driver Nvidia foi atualizado da versão 550.144.03 para 550.163.01 para corrigir as CVEs presentes no NVIDIA GPU Display Driver Security Bulletin de abril de 2025
Data de lançamento: 2025-02-17
Nomes de AMI
AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20250214
AMI base do driver proprietário da Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20250214
Atualização
Atualização do NVIDIA Container Toolkit da versão 1.17.3 para 1.17.4.
Consulte mais informações na página de notas de versão aqui: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
No NVIDIA Container Toolkit versão 1.17.4, a montagem das bibliotecas compatíveis com CUDA agora está desabilitada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêiner, atualize o LD_LIBRARY_PATH para incluir as bibliotecas compatíveis com CUDA, conforme mostrado no tutorial Se você usa uma camada de compatibilidade com CUDA.
Remoção
Remoção das bibliotecas em espaço de usuário cuobj e nvdisasm, fornecidas pelo NVIDIA CUDA Toolkit
, para corrigir as CVEs presentes no NVIDIA CUDA Toolkit Security Bulletin de 18 de fevereiro de 2025 .
Data de lançamento: 2025-02-04
Nomes de AMI
AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20250204
AMI base do driver proprietário da Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20250204
Atualização
Atualização da versão do EFA de 1.37.0 para 1.38.0
O EFA agora inclui o plug-in AWS OFI NCCL, que pode ser encontrado em /opt/amazon/ofi-nccl em vez do original /opt/aws-ofi-nccl/. Se estiver atualizando sua variável LD_LIBRARY_PATH, certifique-se de modificar a localização do OFI NCCL corretamente.
Remoção
O pacote do emacs foi removido dessas DLAMIs. Os clientes podem instalar o emacs a partir do GNU emacs https://www.gnu.org/software/emacs/download.html
.
Data de lançamento: 2025-01-17
Nomes de AMI
AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20250117
AMI base do driver proprietário da Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20250117
Atualização
Atualização do driver Nvidia da versão 550.127.05 para 550.144.03 para corrigir as CVEs presentes no NVIDIA GPU Display Driver Security Bulletin de janeiro de 2025
Data de lançamento: 2024-12-09
Nomes de AMI
AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20241206
AMI base do driver proprietário da Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20241206
Atualização
Atualização do Nvidia Container Toolkit da versão 1.17.0 para 1.17.3
Data de lançamento: 2024-11-22
Nome da AMI: AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20241122
Adição
Adição de suporte para instâncias P5en do EC2.
Atualização
Atualização do instalador do EFA da versão 1.35.0 para 1.37.0
Atualização do plug-in AWS OFI NCCL da versão 1.12.1-aws para 1.13.0-aws
Data de lançamento: 2024-10-26
Nomes de AMI
AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20241025
AMI base do driver proprietário da Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20241025
Atualização
Atualização do driver Nvidia da versão 550.90.07 para 550.127.05 para corrigir as CVEs presentes no NVIDIA GPU Display Security Bulletin de outubro de 2024
Data de lançamento: 2024-10-03
Nome da AMI: AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240927
Atualização
Atualização do Nvidia Container Toolkit da versão 1.16.1 para 1.16.2
Data de lançamento: 2024-08-27
Nome da AMI: AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240827
Atualização
Atualização do driver Nvidia e Fabric Manager da versão 535.183.01 para 550.90.07
Atualização da versão do EFA de 1.32.0 para 1.34.0
Atualização do NCCL para a versão mais recente 2.22.3 para todas as versões do CUDA
Atualização do CUDA 11.7 da versão 2.16.2+CUDA11.7
Atualização do CUDA 12.1, 12.2 de 2.18.5+CUDA12.2
Atualização do CUDA 12.3 da versão 2.21.5+CUDA12.4
Adição
Adição do CUDA Toolkit versão 12.4 no diretório /usr/local/cuda-12.4
Adição de suporte para Instâncias P5e do EC2.
Remoção
Remoção da pilha do CUDA Toolkit versão 11.8 presente no diretório /usr/local/cuda-11.8
Data de lançamento: 2024-08-19
Nome da AMI: AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240816
Adição
Adição de suporte para a instância G6e do EC2
.
Data de lançamento: 2024-06-06
Nomes de AMI
AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240606
AMI base do driver proprietário da Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240606
Atualização
Atualização da versão do driver Nvidia para 535.183.01 de 535.161.08
Data de lançamento: 2024-05-15
Nomes de AMI
AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240515
AMI base do driver proprietário da Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240515
Adição
Adição da pilha do CUDA11.7 novamente no diretório /usr/local/cuda-11.7 com CUDA11.7, NCCL 2.16.2, cuDNN 8.7.0, já que o PyTorch 1.13 é compatível com o CUDA11.7
Data de lançamento: 2024-05-02
Nomes de AMI
AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240502
AMI base do driver proprietário da Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240502
Atualização
Versão do EFA atualizada de 1.30 para 1.32
Plug-in AWS OFI NCCL atualizado da versão 1.7.4 para 1.9.1
Atualização do Nvidia Container Toolkit da versão 1.13.5 para 1.15.0
A versão 1.15.0 NÃO inclui os pacotes nvidia-container-runtime e nvidia-docker2. É recomendável usar os pacotes nvidia-container-toolkit diretamente seguindo a documentação do Nvidia Container Toolkit
.
Adição
Adição da pilha CUDA12.3 com CUDA12.3, NCCL 2.21.5 e cuDNN 8.9.7
Remoção
Remoção das pilhas CUDA11.7 e CUDA12.0 que estavam presentes nos diretórios /usr/local/cuda-11.7 e /usr/local/cuda-12.0
Remoção do pacote nvidia-docker2 e seu comando nvidia-docker como parte da atualização do Nvidia Container Toolkit de 1.13.5 para 1.15.0
, o que NÃO inclui os pacotes nvidia-container-runtime e nvidia-docker2.
Data de lançamento: 2024-04-04
Nomes da AMI: AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240404
Adição
Para DLAMIs do driver OSS Nvidia, foi adicionado suporte às instâncias G6 e Gr6 do EC2. Consulte mais informações em Instâncias de GPU recomendadas.
Data de lançamento: 2024-03-29
Nomes de AMI
AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240326
AMI base do driver proprietário da Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240326
Atualização
Atualização do driver Nvidia de 535.104.12 para 535.161.08 nas DLAMIs do driver proprietário e OSS da Nvidia.
Remoção do suporte para instâncias G4dn e G5 do EC2 da DLAMI do driver proprietário da NVIDIA.
As novas instâncias compatíveis com cada DLAMI são as seguintes:
Aprendizado profundo com driver proprietário da Nvidia compatível com G3 (G3.16x incompatível), P3, P3dn
O aprendizado profundo com driver OSS Nvidia é compatível com G4dn, G5, P4d, P4de e P5.
Data de lançamento: 2024-03-20
Nomes de AMI
AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240318
AMI base do driver proprietário da Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240318
Adição
Adição de
awscliv2na AMI em /usr/local/bin/aws2, além deawscliv1como /usr/local/bin/aws na AMI do driver OSS e proprietário da Nvidia
Data de lançamento: 2024-03-14
Nome da AMI: AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240314
Atualização
A DLAMI do driver OSS Nvidia foi atualizada com suporte para G4dn e G5. Com base nisso, o suporte atual fica assim:
A AMI base do driver proprietário da Nvidia para aprendizado profundo (Ubuntu 20.04) é compatível com P3, P3dn, G3, G5 e G4dn.
A AMI base do driver OSS Nvidia para aprendizado profundo (Ubuntu 20.04) é compatível com G5, G4dn, P4 e P5.
Recomenda-se que DLAMIs do driver OSS NVIDIA sejam usadas para G5, G4dn, P4 e P5.
Data de lançamento: 2024-02-12
Nomes de AMI
AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240208
AMI base do driver proprietário da Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240208
Atualização
O plug-in AWS OFI NCCL foi atualizado de 1.7.3 para 1.7.4
Data de lançamento: 2024-02-01
Nomes de AMI
AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240201
AMI base do driver proprietário da Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20240201
Segurança
Atualização da versão do pacote runc para consumir o patch para CVE-2024-21626
.
Data de lançamento: 2023-12-04
Nomes de AMI
AMI base do driver OSS Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20231204
AMI base do driver proprietário da Nvidia para aprendizado profundo com GPU (Ubuntu 20.04) 20231204
Adição
A AMI de deep learning (DLAMI) da AWS é dividida em dois grupos distintos:
DLAMIs que usam driver proprietário da NVIDIA (para oferecer suporte a P3, P3dn, G3, G5 e G4dn).
DLAMIs que usam o driver OSS Nvidia para habilitar o EFA (para oferecer suporte a P4 e P5).
Consulte mais informações sobre a divisão de DLAMIs em Alterações importantes na DLAMI.
As consultas da AWS CLI acima estão no tópico Consultar o AMI-ID com AWSCLI (a região de exemplo é us-east-1)
Atualização
Atualização do EFA de 1.26.1 para 1.29.0
Atualização do GDRCopy de 2.3 para 2.4
Data de lançamento: 2023-10-18
Nome da AMI: AMI base para aprendizado profundo com GPU (Ubuntu 20.04) 20231018
Atualização
Atualização do plug-in AWS OFI NCCL da versão 1.7.2 para 1.7.3
Atualização dos diretórios do CUDA 12.0-12.1 com NCCL versão 2.18.5 para corresponder ao CUDA 12.2
Atualização do CUDA12.1 como a versão padrão do CUDA
Updated LD_LIBRARY_PATH para ter /usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 e PATH para ter /usr/local/cuda-12.1/bin/
Para clientes que desejam mudar para qualquer versão diferente do CUDA, defina as variáveis LD_LIBRARY_PATH e PATH adequadamente.
Data de lançamento: 2023-10-02
Nome da AMI: AMI base para aprendizado profundo com GPU (Ubuntu 20.04) 20231002
Atualização
Atualização do driver NVIDIA de 535.54.03 para 535.104.12
Esse driver mais recente corrige as alterações importantes da ABI do NVML encontradas na versão 535.54.03 do driver, bem como a regressão do driver encontrada na versão 535.86.10 que afetou CUDA Toolkits nas instâncias P5. Consulte as seguintes notas de versão da NVIDIA para obter detalhes sobre as correções:
Consulte as seguintes notas de versão da NVIDIA para obter detalhes sobre as correções:
Atualização de diretórios do CUDA 12.2 com NCCL 2.18.5
Atualização do EFA da versão 1.24.1 para a mais recente 1.26.1
Adição
Adição do CUDA12.2 em /usr/local/cuda-12.2
Remoção
Remoção de suporte do CUDA 11.5 e CUDA 11.6
Data de lançamento: 2023-09-26
Nome da AMI: AMI base para aprendizado profundo com GPU (Ubuntu 20.04) 20230926
Adição
Adição de alterações em net.naming-scheme para corrigir o problema de nomenclatura imprevisível da interface de rede (link
) observado na P5. Essa alteração é feita definindo net.naming-scheme=v247 nos argumentos de inicialização do Linux no arquivo /etc/default/grub
Data de lançamento: 2023-08-30
Nome da AMI: AMI base para aprendizado profundo com GPU (Ubuntu 20.04) 20230830
Atualização
Atualização do plug-in aws-ofi-nccl da v1.7.1 para 1.7.2
Data de lançamento: 2023-08-11
Nome da AMI: AMI base para aprendizado profundo com GPU (Ubuntu 20.04) 20230811
Adição
Essa AMI agora fornece suporte para a funcionalidade de treinamento de vários nós na P5 e em todas as instâncias do EC2 compatíveis anteriormente.
Para a instância P5 do EC2, recomenda-se o uso do NCCL 2.18 e foi adicionado ao CUDA12.0 e ao CUDA12.1.
Remoção
Remoção de suporte do CUDA11.3 e CUDA11.4.
Data de lançamento: 2023-08-04
Nome da AMI: AMI base para aprendizado profundo com GPU (Ubuntu 20.04) 20230804
Atualização
Atualização do plug-in AWS OFI NCCL para v1.7.1
Tornou o CUDA11.8 o padrão, pois o PyTorch 2.0 é compatível com 11.8 e, para a instância P5 do EC2, é recomendável usar >=CUDA11.8
Updated LD_LIBRARY_PATH para ter /usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 e PATH para ter /usr/local/cuda-11.8/bin/
Para qualquer versão diferente do CUDA, defina LD_LIBRARY_PATH adequadamente.
Atualização de diretórios do CUDA 12.0 e 12.1 com NCCL 2.18.3
Fixed
Correção do problema de carregamento do pacote Nvidia Fabric Manager (FM) mencionado na data de lançamento anterior de 2023-07-19.
Data de lançamento: 2023-07-19
Nome da AMI: AMI base para aprendizado profundo com GPU (Ubuntu 20.04) 20230719
Atualização
Atualização do EFA de 1.22.1 para 1.24.1
Atualização do driver Nvidia de 525.85.12 para 535.54.03
Adição
Foram adicionadas alterações no estado c para desativar o estado ocioso do processador, definindo o estado c máximo como C1. Essa alteração é feita configurando `intel_idle.max_cstate=1 processor.max_cstate=1` nos argumentos de inicialização do linux no arquivo /etc/default/grub
Suporte à instância P5 do AWS EC2:
Adição de suporte à instância P5 do EC2 para fluxos de trabalho usando um único nó/instância. O suporte multinó (por exemplo, para treinamento multinó) usando o EFA (Elastic Fabric Adapter) e o plug-in AWS OFI NCCL será adicionado em uma versão futura.
Use CUDA>=11.8 para um desempenho ideal.
Problema conhecido: o pacote Nvidia Fabric Manager (FM) leva tempo para carregar na P5, os clientes precisam esperar de dois a três minutos até que o FM seja carregado após iniciar a instância P5. Para verificar se o FM foi iniciado, execute o comando sudo systemctl is-active nvidia-fabricmanager, ele deve retornar ativo antes de iniciar qualquer fluxo de trabalho. Isso será aprimorado em uma próxima versão.
Data de lançamento: 2023-05-19
Nome da AMI: AMI base para aprendizado profundo com GPU (Ubuntu 20.04) 20230519
Atualização
Atualização do EFA para a versão mais recente 1.22.1
Atualização da versão do NCCL do CUDA 12.1 para 2.17.1
Adição
Adição do CUDA12.1 em /usr/local/cuda-12.1
Adição de suporte para o NVIDIA Data Center GPU Monitor (DCGM)
por meio do pacote datacenter-gpu-manager É possível verificar o status desse serviço por meio da seguinte consulta: sudo systemctl status nvidia-dcgm
Os armazenamentos de instância efêmeros NVMe agora são montados automaticamente nas instâncias do EC2 compatíveis e o armazenamento pode ser acessado na pasta /opt/dlami/nvme/. É possível verificar ou modificar este serviço das seguintes maneiras:
Verificar o status do serviço NVMe: sudo systemctl status dlami-nvme
Para acessar ou modificar o serviço: /opt/aws/dlami/bin/nvme_ephemeral_drives.sh
Os volumes NVMe forneceram as soluções de armazenamento mais rápidas e eficientes para fluxos de trabalho de throughput que exigem desempenho de IOPS. Armazenamentos de instâncias efêmeros NVMe já estão incluídos no custo das próprias instâncias, portanto, não há nenhum custo adicional por esse serviço.
Os armazenamentos de instâncias NVMe só serão montados em instâncias do EC2 compatíveis. Consulte informações sobre instâncias do EC2 com armazenamentos de instâncias NVMe compatíveis em Volumes de armazenamento de instância disponíveis e confirme se o NVMe é compatível.
Para melhorar o desempenho do disco e reduzir as penalidades de primeira gravação, você pode inicializar os armazenamentos de instâncias (observe que esse processo pode levar horas, dependendo do tipo de instância do EC2): Inicializar os volumes de armazenamento de instância em instâncias do EC2
OBSERVAÇÃO: os armazenamentos de instâncias NVMe são montados na instância e não estão conectados à rede, como o EBS. Os dados nesses volumes NVMe podem ser perdidos na reinicialização ou interrupção da instância.
Data de lançamento: 2023-04-17
Nome da AMI: AMI base para aprendizado profundo com GPU (Ubuntu 20.04) 20230414
Atualização
Atualização do nome da DLAMI da AMI base para aprendizado profundo da AWS do CUDA 11 (Ubuntu 20.04) ${YYYY-MM-DD} para a AMI base para aprendizado profundo com GPU (Ubuntu 20.04) ${YYYY-MM-DD}
Observe que ofereceremos suporte à DLAMI mais recente com o nome antigo da AMI por um mês a partir desta versão, caso seja necessário. Os clientes podem atualizar os pacotes do sistema operacional usando apt-get update && apt-get upgrade para receber os patches de segurança.
Atualização do caminho do plug-in AWS OFI NCCL de /usr/local/cuda-xx.x/efa/ para /opt/aws-ofi-nccl/
Atualização da NCCL para uma ramificação GIT personalizada
de v2.16.2, com coautoria da AWS e da equipe da NCCL para todas as versões do CUDA. Ele tem um desempenho melhor na infraestrutura AWS.
Adição
Adição do CUDA12.0 em /usr/local/cuda-12.0
Adição do AWS FSx
Adição de suporte ao Python versão 3.9 em /usr/bin/python3.9
Observe que essa alteração não substitui o sistema padrão Python, python3 ainda direcionará ao sistema Python3.8.
O Python3.9 pode ser acessado utilizando os seguintes comandos:
/usr/bin/python3.9 python3.9
Remoção
Remoção do CUDA11.0-11.1 de /usr/local/cuda-11.x/, pois eles não estão sendo usados por nenhuma versão de framework compatível com base na política de suporte de framework.
Data de lançamento: 2022-05-25
Nome da AMI: AMI base para aprendizado profundo da AWS com GPU CUDA 11 (Ubuntu 20.04) 20220523
Atualização
Esta versão adiciona suporte à nova instância p4de.24xlarge do EC2.
Atualização do aws-efa-installer para a versão 1.15.2
Atualização de aws-ofi-nccl para a versão 1.3.0-aws, que inclui a topologia para p4de.24xlarge.
Data de lançamento: 2022-03-25
Nome da AMI: AMI base para aprendizado profundo da AWS com GPU CUDA 11 (Ubuntu 20.04) 20220325
Atualização
Atualização da versão do EFA de 1.15.0 para 1.15.1
Data de lançamento: 2022-03-17
Nome da AMI: AMI base para aprendizado profundo da AWS com GPU CUDA 11 (Ubuntu 20.04) 20220323
Adição
Primeira versão