As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
AWS AMI de GPU de base de aprendizado profundo (Ubuntu 20.04)
Aviso de Fora de Suporte
O Ubuntu Linux 20.04 LTS está chegando ao fim de sua janela LTS de cinco anos em 31 de maio de 2025 e não será mais suportado por seu fornecedor. Consequentemente, o AWS Deep Learning Base GPU AMI (Ubuntu 20.04) não terá atualizações após 31 de maio de 2025. As versões anteriores continuarão disponíveis. Observe que qualquer AMI lançada publicamente será descontinuada EC2 após 2 anos de sua data de criação. Consulte Descontinuar uma Amazon EC2 AMI para obter mais informações.
Por 3 meses, até 31 de agosto de 2025, o suporte será fornecido somente para problemas de funcionalidade (não para patches de segurança).
Os usuários do Ubuntu 20.04 DLAMI devem AWS migrar para o Deep Learning Base GPU AMI (Ubuntu 22.04) ou o AWS Deep Learning Base GPU
AMI (Ubuntu 24.04 ). Como alternativa, o AWS Deep Learning Base AMI (Amazon Linux 2023) pode ser usado.
Para obter ajuda para começar, consulteConceitos básicos da DLAMI.
Formato de nome da AMI
Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 20.04) $ {YYYY-MM-DD}
Driver de GPU AMI proprietário da Base de Aprendizado Profundo de Aprendizado Profundo (Ubuntu 20.04) $ {YYYY-MM-DD}
EC2 Instâncias suportadas
Consulte Alterações importantes no DLAMI.
Aprendizado profundo com OSS O driver Nvidia suporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
O Deep Learning com driver proprietário da Nvidia suporta G3 (G3.16x não suportado), P3, P3dn
A AMI inclui o seguinte:
AWS Serviço suportado: Amazon EC2
Sistema operacional: Ubuntu 20.04
Arquitetura de computação: x86
A versão mais recente disponível está instalada para os seguintes pacotes:
Kernel Linux 5.15
FSx Lustre
Docker
AWS CLI v2 em/usr/local/bin/aws2 e AWS CLI v1 em/usr/bin/aws
NVIDIA DCGM
Kit de ferramentas de contêiner Nvidia:
Comando de versão: nvidia-container-cli -V
NVIDIA-Docker 2:
Comando de versão: versão nvidia-docker
Controlador NVIDIA:
Controlador OSS Nvidia: 550.163.01
Driver proprietário da Nvidia: 550.163.01
Pilha NVIDIA CUDA 11.7, 12.1-12.4:
Diretórios de instalação CUDA, NCCL e cuDDN:/-xx.x/ usr/local/cuda
Exemplo:/usr/local/cuda-12.1/
Versão NCCL compilada: 2.22.3+ .4 CUDA12
CUDA padrão: 12.1
PATH/usr/local/cudaaponta para CUDA 12.1
Variáveis de ambiente atualizadas abaixo:
LD_LIBRARY_PATH para ter/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PATH para ter/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/
Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.
Local dos testes NCCL:
all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Para executar testes NCCL, o LD_LIBRARY_PATH precisa ser aprovado com as atualizações abaixo.
PATHs Os comuns já foram adicionados ao LD_LIBRARY_PATH:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.
Instalador EFA: 1.39.0
Nvidia GDRCopy: 2.4
AWS Plugin OFI NCCL: é instalado como parte do EFA Installer-AWS
AWS O OFI NCCL agora suporta várias versões do NCCL com uma única compilação
O caminho de instalação:/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libé adicionado ao LD_LIBRARY_PATH.
Testa o caminho para o anel, message_transfer:/opt/aws-ofi-nccl/tests
Tipo de volume do EBS: gp3
Python:/3.9 usr/bin/python
NVMe Local do armazenamento de instâncias (em EC2 instâncias compatíveis):/opt/dlami/nvme
Consulte o AMI-ID com o parâmetro SSM (a região do exemplo é us-east-1):
Controlador OSS Nvidia:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output textDriver proprietário da Nvidia:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
Consulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):
Controlador OSS Nvidia:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output textDriver proprietário da Nvidia:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Avisos
Kit de ferramentas de contêiner NVIDIA 1.17.4
No Container Toolkit versão 1.17.4, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêineres, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial Se você usar uma camada de compatibilidade CUDA.
Atualizações do EFA de 1.37 para 1.38 (lançamento em 04/02/2025)
O EFA agora inclui o plug-in AWS OFI NCCL, que agora pode ser encontrado em/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se estiver atualizando sua variável LD_LIBRARY_PATH, certifique-se de modificar a localização do OFI NCCL corretamente.
Política de suporte
Componentes dessa AMI, como as versões CUDA, podem ser removidos e alterados com base na política de suporte da estrutura ou para otimizar o desempenho de contêineres de aprendizado profundo
EC2 instâncias com várias placas de rede
Muitos tipos de instâncias que oferecem suporte ao EFA também têm várias placas de rede.
DeviceIndex é exclusivo para cada placa de rede e deve ser um número inteiro não negativo menor que o limite de ENIs per. NetworkCard Em P5, o número de ENIs per NetworkCard é 2, o que significa que os únicos valores válidos para DeviceIndex são 0 ou 1.
Para a interface de rede primária (índice da placa de rede 0, índice do dispositivo 0), crie uma interface EFA (EFA com ENA). Você não pode usar uma interface de rede exclusiva do EFA como interface de rede primária.
Para cada interface de rede adicional, use o próximo índice de placa de rede não utilizada, o índice de dispositivo 1 e uma interface de rede EFA (EFA com ENA) ou somente EFA, dependendo do seu caso de uso, como requisitos de largura de banda do ENA ou espaço de endereço IP. Por exemplo, casos de uso, consulte a configuração do EFA para instâncias P5.
Para obter mais informações, consulte o Guia EFA aqui.
Instâncias P5/P5e
As instâncias P5 e P5e contêm 32 placas de interface de rede e podem ser iniciadas usando o seguinte comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
5 instâncias abertas
O P5en contém 16 placas de interface de rede e pode ser iniciado usando o seguinte comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
A versão do kernel é fixada usando o comando:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selectionsRecomendamos que os usuários evitem atualizar a versão do kernel (a menos que seja devido a um patch de segurança) para garantir a compatibilidade com os drivers instalados e as versões do pacote. Se os usuários ainda quiserem atualizar, eles podem executar os seguintes comandos para desafixar suas versões do kernel:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selectionsPara cada nova versão do DLAMI, o kernel compatível mais recente disponível é usado.
Data de lançamento: 2025-04-24
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250424
Driver de GPU AMI proprietário da Base de Aprendizado Profundo de Aprendizado Profundo (Ubuntu 20.04) 20250424
Atualizado
Data de lançamento: 2025-02-17
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 2025-02-14
Driver de GPU AMI proprietário da Base de Aprendizado Profundo de Aprendizado Profundo (Ubuntu 20.04) 2025-02-14
Atualizado
Kit de ferramentas de contêiner NVIDIA atualizado da versão 1.17.3 para a versão 1.17.4
Consulte a página de notas de lançamento aqui para obter mais informações: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
No Container Toolkit versão 1.17.4, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêineres, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial Se você usar uma camada de compatibilidade CUDA.
Removido
As bibliotecas de espaço do usuário cuobj e nvdisasm foram removidas fornecidas pelo kit de ferramentas NVIDIA CUDA para abordar as CVEs presentes no boletim de segurança do kit de ferramentas
NVIDIA CUDA de 18 de fevereiro de 2025
Data de lançamento: 2025-02-04
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250204
Driver de GPU AMI proprietário da Base de Aprendizado Profundo de Aprendizado Profundo (Ubuntu 20.04) 20250204
Atualizado
Versão EFA atualizada de 1.37.0 para 1.38.0
O EFA agora inclui o plug-in AWS OFI NCCL, que agora pode ser encontrado em/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se estiver atualizando sua variável LD_LIBRARY_PATH, certifique-se de modificar a localização do OFI NCCL corretamente.
Removido
O pacote emacs foi removido deles. DLAMIs Os clientes podem instalar o emacs a partir do GNU emacs. https://www.gnu.org/software/emacs/download.html
Data de lançamento: 2025-01-17
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250117
Driver de GPU AMI proprietário da Base de Aprendizado Profundo de Aprendizado Profundo (Ubuntu 20.04) 20250117
Atualizado
Data de lançamento: 2024-12-09
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241206
Driver de GPU AMI proprietário da Base de Aprendizado Profundo de Aprendizado Profundo (Ubuntu 20.04) 20241206
Atualizado
Kit de ferramentas de contêiner Nvidia atualizado da versão 1.17.0 para 1.17.3
Data de lançamento: 2024-11-22
Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241122
Adicionado
Foi adicionado suporte para instâncias P5en. EC2
Atualizado
Instalador EFA atualizado da versão 1.35.0 para 1.37.0
Atualize o plug-in AWS OFI NCCL da versão 1.12.1-aws para 1.13.0-aws
Data de lançamento: 2024-10-26
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241025
Driver de GPU AMI proprietário da Base de Aprendizado Profundo de Aprendizado Profundo (Ubuntu 20.04) 20241025
Atualizado
Data de lançamento: 2024-10-03
Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240927
Atualizado
Kit de ferramentas de contêiner Nvidia atualizado da versão 1.16.1 para 1.16.2
Data de lançamento: 2024-08-27
Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240827
Atualizado
Driver Nvidia e Fabric Manager atualizados da versão 535.183.01 para 550.90.07
Versão EFA atualizada de 1.32.0 para 1.34.0
NCCL atualizado para a versão mais recente 2.22.3 para todas as versões CUDA
CUDA 11.7 atualizado da versão 2.16.2+. CUDA11
CUDA 12.1, 12.2 atualizado de 2.18.5+ 2. CUDA12
CUDA 12.3 atualizado da versão 2.21.5+. CUDA12
Adicionado
Foi adicionado o kit de ferramentas CUDA versão 12.4 no diretório/-12.4 usr/local/cuda
Foi adicionado suporte para a instância P5e. EC2
Removido
Removida a pilha do CUDA Toolkit versão 11.8 presente no diretório/-11.8 usr/local/cuda
Data de lançamento: 2024-08-19
Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240816
Adicionado
Foi adicionado suporte para a instância G6e. EC2
Data de lançamento: 2024-06-06
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240606
Driver de GPU AMI proprietário da Base de Aprendizado Profundo de Aprendizado Profundo (Ubuntu 20.04) 20240606
Atualizado
Versão atualizada do driver Nvidia para 535.183.01 de 535.161.08
Data de lançamento: 2024-05-15
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240515
Driver de GPU AMI proprietário da Base de Aprendizado Profundo de Aprendizado Profundo (Ubuntu 20.04) 20240515
Adicionado
Foi adicionada novamente a pilha CUDA11 .7 no diretório/usr/local/cuda-11.7 com CUDA11 .7, NCCL 2.16.2, cuDNN 8.7.0, pois 1.13 suporta .7 PyTorch CUDA11
Data de lançamento: 2024-05-02
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240502
Driver de GPU AMI proprietário da Base de Aprendizado Profundo de Aprendizado Profundo (Ubuntu 20.04) 20240502
Atualizado
Versão EFA atualizada da versão 1.30 para a versão 1.32
Plugin AWS OFI NCCL atualizado da versão 1.7.4 para a versão 1.9.1
Kit de ferramentas de contêiner Nvidia atualizado da versão 1.13.5 para a versão 1.15.0
A versão 1.15.0 NÃO inclui os pacotes nvidia-container-runtime nvidia-docker2. É recomendável usar nvidia-container-toolkit pacotes diretamente seguindo os documentos do kit de ferramentas de contêiner da Nvidia
.
Adicionado
Foi adicionada uma pilha CUDA12 3.0 com 3.3, NCCL CUDA12 2.21.5, cuDNN 8.9.7
Removido
Foram removidas as pilhas de CUDA11 0,7, CUDA12 0,0 presentes nos diretórios//-12.0 usr/local/cuda-11.7 and /usr/local/cuda
O pacote nvidia-docker2 e seu comando nvidia-docker foram removidos como parte da atualização do kit de ferramentas de contêiner Nvidia de 1.13.5 para 1.15.0, que NÃO inclui os pacotes nvidia-docker2 e nvidia-docker2.
nvidia-container-runtime
Data de lançamento: 2024-04-04
Nomes da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240404
Adicionado
Para o driver OSS Nvidia DLAMIs, adicionou suporte às instâncias G6 e EC2 Gr6. Consulte Instâncias de GPU recomendadas para obter mais informações.
Data de lançamento: 2024-03-29
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240326
Driver de GPU AMI proprietário da Base de Aprendizado Profundo de Aprendizado Profundo (Ubuntu 20.04) 20240326
Atualizado
Driver Nvidia atualizado de 535.104.12 para 535.161.08 nos drivers Proprietário e OSS Nvidia. DLAMIs
Removido o suporte às EC2 instâncias G4dn e G5 do driver proprietário da Nvidia DLAMI.
As novas instâncias suportadas para cada DLAMI são as seguintes:
O Deep Learning com driver proprietário da Nvidia suporta G3 (G3.16x não suportado), P3, P3dn
Aprendizado profundo com OSS O driver Nvidia suporta G4dn, G5, P4d, P4de, P5.
Data de lançamento: 2024-03-20
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240318
Driver de GPU AMI proprietário da Base de Aprendizado Profundo de Aprendizado Profundo (Ubuntu 20.04) 20240318
Adicionado
Adicionado
awscliv2na AMI em usr/local/bin/aws /2, junto comawscliv1usr/bin/aws /na AMI proprietária e OSS Nvidia Driver
Data de lançamento: 2024-03-14
Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240314
Atualizado
O driver OSS Nvidia DLAMI atualizado com suporte para G4dn e G5, com base nele, o suporte atual é o seguinte:
A AMI de driver Nvidia proprietária da Deep Learning Base (Ubuntu 20.04) suporta P3, P3dn, G3, G5, G4dn.
O Deep Learning Base OSS Nvidia Driver AMI (Ubuntu 20.04) suporta G5, G4dn, P4, P5.
Recomenda-se que o driver DLAMIs OSS Nvidia seja usado para G5, G4dn, P4, P5.
Data de lançamento: 2024-02-12
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240208
Driver de GPU AMI proprietário da Base de Aprendizado Profundo de Aprendizado Profundo (Ubuntu 20.04) 20240208
Atualizado
AWS O plugin OFI NCCL foi atualizado de 1.7.3 para 1.7.4
Data de lançamento: 2024-02-01
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240201
Driver de GPU AMI proprietário da Base de Aprendizado Profundo de Aprendizado Profundo (Ubuntu 20.04) 20240201
Segurança
Data de lançamento: 2023-12-04
Nomes da AMI
Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20231204
Driver de GPU AMI proprietário da Base de Aprendizado Profundo de Aprendizado Profundo (Ubuntu 20.04) 20231204
Adicionado
AWS A AMI de aprendizado profundo (DLAMI) é dividida em dois grupos separados:
DLAMI que usa o driver proprietário da Nvidia (para suportar P3, P3dn, G3, G5, G4dn).
DLAMI que usa o driver Nvidia OSS para habilitar o EFA (para suportar P4, P5).
Consulte Alterações importantes no DLAMI para obter mais informações sobre a divisão do DLAMI.
AWS CLI as consultas acima estão em bullet Point Query AMI-ID AWSCLI com (exemplo, a região é us-east-1)
Atualizado
EFA atualizado de 1.26.1 para 1.29.0
GDRCopy atualizado de 2.3 para 2.4
Data de lançamento: 2023-10-18
Nome da AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20231018
Atualizado
AWS Plugin OFI NCCL atualizado da versão 1.7.2 para a versão 1.7.3
Diretórios CUDA 12.0-12.1 atualizados com NCCL versão 2.18.5 para corresponder ao CUDA 12.2
CUDA12.1 atualizado como a versão padrão do CUDA
LD_LIBRARY_PATH atualizado para ter//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
Para clientes que desejam mudar para qualquer versão diferente do CUDA, defina as variáveis LD_LIBRARY_PATH e PATH adequadamente.
Data de lançamento: 2023-10-02
Nome da AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20231002
Atualizado
Driver NVIDIA atualizado de 535.54.03 para 535.104.12
Esse driver mais recente corrige as alterações importantes da ABI do NVML encontradas na versão 535.54.03 do driver, bem como a regressão do driver encontrada na versão 535.86.10 que afetou os kits de ferramentas CUDA nas instâncias P5. Consulte as seguintes notas de lançamento da NVIDIA para obter detalhes sobre as correções:
Consulte as seguintes notas de lançamento da NVIDIA para obter detalhes sobre as correções:
Diretórios CUDA 12.2 atualizados com NCCL 2.18.5
EFA atualizado da versão 1.24.1 para a mais recente 1.26.1
Adicionado
Adicionado CUDA12 1.2 em usr/local/cuda /-12.2
Removido
Suporte removido para CUDA 11.5 e CUDA 11.6
Data de lançamento: 2023-09-26
Nome da AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230926
Adicionado
Foram adicionadas alterações no net.naming-scheme para corrigir o problema imprevisível de nomenclatura da interface de rede (link) visto no P5.
Essa alteração é feita definindo net.naming-scheme=v247 nos argumentos de inicialização do Linux no arquivo/etc/default/grub
Data de lançamento: 2023-08-30
Nome da AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230830
Atualizado
aws-ofi-ncclPlugin atualizado de v1.7.1 para v1.7.2
Data de lançamento: 2023-08-11
Nome da AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230811
Adicionado
Essa AMI agora fornece suporte para a funcionalidade de treinamento de vários nós no P5 e em todas as instâncias com suporte anterior EC2 .
Para a EC2 instância P5, recomenda-se que o NCCL 2.18 seja usado e foi adicionado a CUDA12 .0 e .1. CUDA12
Removido
Suporte removido para CUDA11 .3 e CUDA11 .4.
Data de lançamento: 2023-08-04
Nome da AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230804
Atualizado
Plugin AWS OFI NCCL atualizado para v1.7.1
Feito em CUDA11 0,8 como padrão, pois PyTorch 2.0 suporta 11,8 e, para a EC2 instância P5, é recomendável usar >= .8 CUDA11
LD_LIBRARY_PATH atualizado para ter//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
Para qualquer versão diferente do cuda, defina LD_LIBRARY_PATH adequadamente.
Diretórios CUDA 12.0, 12.1 atualizados com NCCL 2.18.3
Fixo
Corrigido o problema de carregamento do pacote Nvidia Fabric Manager (FM) mencionado na data de lançamento anterior de 2023-07-19.
Data de lançamento: 2023-07-19
Nome da AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230719
Atualizado
EFA atualizado de 1.22.1 para 1.24.1
Driver Nvidia atualizado de 525.85.12 para 535.54.03
Adicionado
Foram adicionadas alterações no estado c para desativar o estado ocioso do processador, definindo o estado c máximo como C1. Essa alteração é feita definindo `intel_idle.max_cstate=1 processor.max_cstate=1` nos argumentos de inicialização do linux no arquivo/etc/default/grub
AWS EC2 Suporte à instância P5:
Foi adicionado suporte à EC2 instância P5 para fluxos de trabalho usando um único nó/instância. O suporte a vários nós (por exemplo, para treinamento em vários nós) usando o EFA (Elastic Fabric Adapter) e o plug-in AWS OFI NCCL será adicionado em uma versão futura.
Use CUDA>=11,8 para um desempenho ideal.
Problema conhecido: o pacote Nvidia Fabric Manager (FM) leva tempo para carregar no P5, os clientes precisam esperar de 2 a 3 minutos até que o FM seja carregado após iniciar a instância P5. Para verificar se o FM foi iniciado, execute o comando sudo systemctl is-active nvidia-fabricmanager, ele deve retornar ativo antes de iniciar qualquer fluxo de trabalho. Isso será aprimorado na próxima versão.
Data de lançamento: 2023-05-19
Nome da AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230519
Atualizado
EFA atualizado para a última versão 1.22.1
Versão NCCL atualizada para CUDA 12.1 a 2.17.1
Adicionado
Adicionado CUDA12 4.1 em//usr/local/cuda-12.1
Adicionado suporte para NVIDIA Data Center GPU Monitor (DCGM
) por meio do pacote datacenter-gpu-manager Você pode verificar o status desse serviço por meio da seguinte consulta: sudo systemctl status nvidia-dcgm
Os armazenamentos de NVMe instâncias efêmeras agora são montados automaticamente nas EC2 instâncias compatíveis e o armazenamento pode ser acessado na pasta//. opt/dlami/nvme Você pode verificar ou modificar esse serviço das seguintes formas:
Verifique o status do NVMe serviço: sudo systemctl status dlami-nvme
Para acessar ou modificar o serviço:/opt/aws/dlami/bin/nvme_ephemeral_drives.sh
NVMe os volumes forneceram as soluções de armazenamento mais rápidas e eficientes para fluxos de trabalho de alto rendimento que exigem desempenho de IOPS. Armazenamentos de NVMe instâncias efêmeras estão incluídos no custo das instâncias, portanto, não há custo adicional incorrido com esse serviço.
NVMe os armazenamentos de instâncias só serão montados em EC2 instâncias que os suportem. Para obter informações sobre EC2 instâncias com armazenamentos de instâncias NVMe compatíveis, consulte Volumes de armazenamento de instâncias disponíveis e valide se NVMe há suporte.
Para melhorar o desempenho do disco e reduzir as penalidades de primeira gravação, você pode inicializar os armazenamentos de instâncias (observe que esse processo pode levar horas, dependendo do tipo de EC2 instância) - Inicialize os volumes de armazenamento de instâncias nas instâncias EC2
OBSERVAÇÃO: os armazenamentos de NVMe instâncias são montados na instância e não estão conectados à rede, como o EBS. Os dados nesses NVMe volumes podem ser perdidos na reinicialização ou interrupção da sua instância.
Data de lançamento: 2023-04-17
Nome da AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230414
Atualizado
Nome DLAMI atualizado AWS do Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) $ {YYY-MM-DD} para o Deep Learning Base GPU AMI (Ubuntu 20.04) $ {YYYY-MM-DD}
Observe que ofereceremos suporte à DLAMI mais recente com o nome antigo da AMI por um mês a partir desta versão para qualquer suporte necessário. Os clientes podem atualizar seus pacotes de sistema operacional apt-get update && apt-get upgrade para consumir patches de segurança.
Caminho do plugin AWS OFI NCCL atualizado de/-ofi-nccl/ usr/local/cuda-xx.x/efa/ to /opt/aws
A NCCL foi atualizada para uma ramificação GIT personalizada da v2.16.2,
com coautoria de uma equipe da NCCL para todas as versões do CUDA. AWS Ele tem um desempenho melhor na AWS infraestrutura.
Adicionado
Adicionado CUDA12 4.0 em usr/local/cuda /-12.0
AWS FSx
adicionado Adicionado suporte para Python versão 3.9 em /3.9 usr/bin/python
Observe que essa alteração não substitui o sistema padrão Python, python3 ainda apontará o sistema Python3.8.
O Python3.9 pode ser acessado utilizando os seguintes comandos:
/usr/bin/python3.9 python3.9
Removido
Data de lançamento: 2022-05-25
Nome da AMI: Base de aprendizado AWS profundo AMI GPU CUDA 11 (Ubuntu 20.04) 20220523
Atualizado
Esta versão adiciona suporte para a nova EC2 instância p4de.24xlarge.
Atualizado aws-efa-installer para a versão 1.15.2
Atualizado aws-ofi-nccl para a versão 1.3.0-aws, que inclui a topologia para p4de.24xlarge.
Data de lançamento: 2022-03-25
Nome da AMI: Base de aprendizado AWS profundo AMI GPU CUDA 11 (Ubuntu 20.04) 20220325
Atualizado
Versão EFA atualizada de 1.15.0 para 1.15.1
Data de lançamento: 2022-03-17
Nome da AMI: Base de aprendizado AWS profundo AMI GPU CUDA 11 (Ubuntu 20.04) 20220323
Adicionado
Primeira versão