AWS AMI de GPU de base de aprendizado profundo (Ubuntu 22.04)

Para obter ajuda para começar, consulteConceitos básicos da DLAMI.

Formato de nome da AMI

Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 22.04) $ {YYYY-MM-DD}

EC2 Instâncias suportadas

Consulte Alterações importantes no DLAMI.
Aprendizado profundo com OSS O driver Nvidia suporta G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P6-B200.

A AMI inclui o seguinte:

AWS Serviço suportado: Amazon EC2
Sistema operacional: Ubuntu 22.04
Arquitetura de computação: x86
A versão mais recente disponível está instalada para os seguintes pacotes:
- Kernel Linux: 6. 8
- FSx Lustre
- Docker
- AWS CLI v2 em/usr/local/bin/aws2 e AWS CLI v1 em/usr/bin/aws
- NVIDIA DCGM
- Kit de ferramentas de contêiner Nvidia:
  - Comando de versão: nvidia-container-cli -V
- NVIDIA-Docker 2:
  - Comando de versão: versão nvidia-docker
Driver NVIDIA: 570.172.08
Pilha NVIDIA CUDA 12.4-12.6 e 12.8:
- Diretórios de instalação CUDA, NCCL e cuDDN:/-xx.x/ usr/local/cuda
  - Exemplo:/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/
- Versão compilada da NCCL: 2.26.5
- CUDA padrão: 12,8
  - PATH/usr/local/cudaaponta para CUDA 12.8
  - Variáveis de ambiente atualizadas abaixo:
    
    LD_LIBRARY_PATH deve ter/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/x86_64-linux/lib:/usr/local/cuda-12.8/extras/CUPTI/lib
    PATH para ter/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/
    Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.
Instalador EFA: 1.43.1
Nvidia GDRCopy: 2.5.1
AWS O plugin OFI NCCL vem com o instalador EFA
- Os caminhos/opt/amazon/ofi-nccl/lib/x86_64-linux-gnu and /opt/amazon/ofi-nccl/efasão adicionados ao LD_LIBRARY_PATH.
AWS CLI v2 em/usr/local/bin/aws2 e AWS CLI v1 em/usr/bin/aws
Tipo de volume do EBS: gp3
Python:/3.10 usr/bin/python
NVMe Local do armazenamento de instâncias (em EC2 instâncias compatíveis):/opt/dlami/nvme

Consulte o AMI-ID com o parâmetro SSM (a região do exemplo é us-east-1):

Controlador OSS Nvidia:


SSM_PARAMETER=base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \
    aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/$SSM_PARAMETER  \
    --query "Parameter.Value" \
    --output text

Consulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):

Controlador OSS Nvidia:


aws ec2 describe-images --region us-east-1 \
      --owners amazon \
      --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \
      --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
      --output text

Avisos

Kit de ferramentas de contêiner NVIDIA 1.17.4

No Container Toolkit versão 1.17.4, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêiner, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial Se você usar uma camada de compatibilidade CUDA.

Atualizações do EFA de 1.37 para 1.38 (lançamento em 31/01/2025)

O EFA agora inclui o plug-in AWS OFI NCCL, que agora pode ser encontrado em/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se estiver atualizando sua variável LD_LIBRARY_PATH, certifique-se de modificar a localização do OFI NCCL corretamente.

Suporte para vários ENI

O Ubuntu 22.04 configura e configura automaticamente o roteamento de origem em vários NICss usando o cloud-init em sua inicialização inicial. Se seu fluxo de trabalho incluir attaching/detaching você ENIs enquanto uma instância está parada, uma configuração adicional deve ser adicionada aos dados do usuário cloud-init para garantir a configuração adequada das NICs durante esses eventos. Uma amostra da configuração da nuvem é fornecida abaixo.
Consulte esta documentação da Canonical aqui para obter mais informações sobre como configurar a configuração de nuvem para suas instâncias - -/https://documentation.ubuntu.com/aws/en/latest/aws-how-to/instances/automaticallysetup-multiple-nics


#cloud-config
# apply network config on every boot and hotplug event
updates:
  network:
    when: ['boot', 'hotplug']

Política de suporte

Esses AMIs componentes dessa AMI, como as versões CUDA, podem ser removidos e alterados com base na política de suporte da estrutura ou para otimizar o desempenho de contêineres de aprendizado profundo ou para reduzir o tamanho da AMI em uma versão futura, sem aviso prévio. Removemos as versões CUDA AMIs se elas não forem usadas por nenhuma versão de estrutura compatível.

EC2 instâncias com várias placas de rede

Muitos tipos de instâncias que oferecem suporte ao EFA também têm várias placas de rede.
DeviceIndex é exclusivo para cada placa de rede e deve ser um número inteiro não negativo menor que o limite de ENIs per. NetworkCard Em P5, o número de ENIs per NetworkCard é 2, o que significa que os únicos valores válidos para DeviceIndex são 0 ou 1.
- Para a interface de rede primária (índice da placa de rede 0, índice do dispositivo 0), crie uma interface EFA (EFA com ENA). Você não pode usar uma interface de rede exclusiva do EFA como interface de rede primária.
- Para cada interface de rede adicional, use o próximo índice de placa de rede não utilizada, o índice de dispositivo 1 e uma interface de rede EFA (EFA com ENA) ou somente EFA, dependendo do seu caso de uso, como requisitos de largura de banda do ENA ou espaço de endereço IP. Por exemplo, casos de uso, consulte a configuração do EFA para instâncias P5.
- Para obter mais informações, consulte o Guia EFA aqui.

Instâncias P6-B200

O P6-B200 contém 8 placas de interface de rede e pode ser iniciado usando o seguinte comando: AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

5 instâncias abertas

O P5en contém 16 placas de interface de rede e pode ser iniciado usando o seguinte comando: AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     ....
     "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Instâncias P5/P5e

As instâncias P5 e P5e contêm 32 placas de interface de rede e podem ser iniciadas usando o seguinte comando: AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     ...
     "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Kernel

A versão do kernel é fixada usando o comando:


echo linux-aws hold | sudo dpkg —set-selections
echo linux-headers-aws hold | sudo dpkg —set-selections
echo linux-image-aws hold | sudo dpkg —set-selections

Recomendamos que os usuários evitem atualizar a versão do kernel (a menos que seja devido a um patch de segurança) para garantir a compatibilidade com os drivers instalados e as versões do pacote. Se os usuários ainda quiserem atualizar, eles podem executar os seguintes comandos para desafixar suas versões do kernel:
```
echo linux-aws install | sudo dpkg -set-selections
echo linux-headers-aws install | sudo dpkg -set-selections
echo linux-image-aws install | sudo dpkg -set-selections
```
Para cada nova versão do DLAMI, o kernel compatível mais recente disponível é usado.

Data de lançamento: 2025-07-22

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250722

Atualizado

O driver Nvidia foi atualizado de 570.158.01 para 570.172.08 para corrigir os CVEs presentes no Boletim de Segurança da Nvidia de julho

Data de lançamento: 2025-05-16

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250516

Adicionado

Suporte adicional para instâncias P6-B200 EC2

Atualizado

Instalador EFA atualizado da versão 1.39.0 para 1.40.0
Atualize o plug-in AWS OFI NCCL da versão 1.13.0-aws para 1.14.2-aws
Versão NCCL compilada atualizada da versão 2.22.3 para 2.26.5
Versão CUDA padrão atualizada da versão 12.6 para 12.8
Versão Nvidia DCGM atualizada de 3.3.9 para 4.4.3

Data de lançamento: 2025-05-05

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503

Atualizado

Atualizado GDRCopy de 2.4.1 para 2.5.1

Data de lançamento: 2025-04-24

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250424

Atualizado

Driver Nvidia atualizado da versão 570.124.06 para 570.133.20 para o endereço CVEs presente no boletim de segurança do driver de vídeo GPU NVIDIA de abril de 2025

Data de lançamento: 2025-02-17

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250214

Atualizado

Kit de ferramentas de contêiner NVIDIA atualizado da versão 1.17.3 para a versão 1.17.4
- Consulte a página de notas de lançamento aqui para obter mais informações: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
- Na versão 1.17.4 do Container Toolkit, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêiner, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial Se você usar uma camada de compatibilidade CUDA.

Removido

As bibliotecas de espaço do usuário cuobj e nvdisasm foram removidas fornecidas pelo kit de ferramentas NVIDIA CUDA para abordar as CVEs presentes no boletim de segurança do kit de ferramentas NVIDIA CUDA de 18 de fevereiro de 2025

Data de lançamento: 2025-02-07

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250205

Adicionado

Foi adicionado o kit de ferramentas CUDA versão 12.6 no diretório/-12.6 usr/local/cuda

Removido

As versões 12.1 e 12.2 do CUDA foram removidas deste DLAMI. Os clientes podem instalar essas versões da NVIDIA usando o link abaixo
- https://developer.nvidia.com/cuda-toolkit-archive

Data de lançamento: 2025-01-31

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250131

Atualizado

Versão EFA atualizada de 1.37.0 para 1.38.0
- O EFA agora inclui o plug-in AWS OFI NCCL, que agora pode ser encontrado em/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se estiver atualizando sua variável LD_LIBRARY_PATH, certifique-se de modificar a localização do OFI NCCL corretamente.
Kit de ferramentas de contêiner Nvidia atualizado de 1.17.3 para 1.17.4

Data de lançamento: 2025-01-17

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250117

Atualizado

Driver Nvidia atualizado da versão 550.127.05 para 550.144.03 para o endereço CVEs presente no boletim de segurança do driver de vídeo GPU NVIDIA de janeiro de 2025

Data de lançamento: 2024-11-18

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241115

Adicionado

FSx Pacote Amazon para suporte ao Lustre adicionado.

Fixo

Devido a uma alteração no kernel do Ubuntu para solucionar defeitos na funcionalidade KASLR (Kernel Address Space Layout Randomization), as instâncias G4Dn/G5 não conseguem inicializar adequadamente o CUDA no driver OSS Nvidia. Para mitigar esse problema, esse DLAMI inclui uma funcionalidade que carrega dinamicamente o driver proprietário para instâncias G4Dn e G5. Aguarde um breve período de inicialização para esse carregamento para garantir que suas instâncias funcionem corretamente.

Para verificar o status e a integridade desse serviço, você pode usar o seguinte comando:


sudo systemctl is-active dynamic_driver_load.service
active

Data de lançamento: 2024-10-23

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241023

Atualizado

Driver Nvidia atualizado da versão 550.90.07 para 550.127.05 para endereço CVEs presente no Boletim de Segurança do NVIDIA GPU Display de outubro de 2024

Data de lançamento: 2024-10-01

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240930

Atualizado

Driver Nvidia e Fabric Manager atualizados da versão 535.183.01 para 550.90.07
Atualizou o Nvidia Container Toolkit da versão 1.16.1 para a 1.16.2, abordando a vulnerabilidade de segurança CVE-2024-0133.
Versão EFA atualizada de 1.32.0 para 1.34.0
NCCL atualizado para a versão mais recente 2.22.3 para todas as versões CUDA
- CUDA 12.1, 12.2 atualizado de 2.18.5+ 2. CUDA12
- CUDA 12.3 atualizado da versão 2.21.5+ 4. CUDA12

Adicionado

Foi adicionado o kit de ferramentas CUDA versão 12.4 no diretório/-12.4 usr/local/cuda
Foi adicionado suporte para instâncias P5e. EC2

Data de lançamento: 2024-08-19

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240816

Adicionado

Foi adicionado suporte para a instância G6e. EC2

Data de lançamento: 2024-06-06

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240606

Atualizado

Versão atualizada do driver Nvidia para 535.183.01 de 535.161.08

Data de lançamento: 2024-05-15

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240513

Removido

O suporte do Amazon FSx for Lustre foi removido nesta versão devido à incompatibilidade com as versões mais recentes do kernel Ubuntu 22.04. O suporte FSx para o Lustre será restabelecido assim que a versão mais recente do kernel for suportada. Os clientes que precisam FSx do Lustre devem continuar usando o Deep Learning Base GPU AMI (Ubuntu 20.04).

Data de lançamento: 2024-04-29

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240429

Adicionado

Lançamento inicial do Deep Learning Base OSS DLAMI para Ubuntu 22.04

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

AMI de GPU básica (Ubuntu 24.04)

AMI de GPU básica (Amazon Linux 2)