AWS AMI de GPU de base de aprendizado profundo (Ubuntu 24.04) - AMIs de deep learning da AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS AMI de GPU de base de aprendizado profundo (Ubuntu 24.04)

Para obter ajuda para começar, consulteConceitos básicos da DLAMI.

Formato de nome da AMI

  • Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 24.04) $ {YYYY-MM-DD}

EC2 Instâncias suportadas

A AMI inclui o seguinte:

  • AWS Serviço suportado: Amazon EC2

  • Sistema operacional: Ubuntu 24.04

  • Arquitetura de computação: x86

  • A versão mais recente disponível está instalada para os seguintes pacotes:

    • Kernel Linux: 6. 8

    • FSx Lustre

    • Docker

    • AWS CLI v2 em/usr/bin/aws

    • NVIDIA DCGM

    • Kit de ferramentas de contêiner Nvidia:

      • Comando de versão: nvidia-container-cli -V

    • NVIDIA-Docker 2:

      • Comando de versão: versão nvidia-docker

  • Driver NVIDIA: 570.172.08

  • Pilha NVIDIA CUDA 12.6 e 12.8:

    • Diretórios de instalação CUDA, NCCL e cuDDN:/-xx.x/ usr/local/cuda

      • Exemplo:/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/

    • Versão compilada da NCCL: 2.25.1

    • CUDA padrão: 12,8

      • PATH/usr/local/cudaaponta para CUDA 12.8

      • Variáveis de ambiente atualizadas abaixo:

        • LD_LIBRARY_PATH deve ter/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib

        • PATH para ter/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.

  • Instalador EFA: 1.43.1

  • Nvidia GDRCopy: 2.5.1

  • AWS O plugin OFI NCCL vem com o instalador EFA

    • Os caminhos/opt/amazon/ofi-nccl/lib/x86_64-linux-gnu and /opt/amazon/ofi-nccl/efasão adicionados ao LD_LIBRARY_PATH.

  • AWS CLI v2 em/usr/bin/aws

  • Tipo de volume do EBS: gp3

  • Python:/3.12 usr/bin/python

  • NVMe Local do armazenamento de instâncias (em EC2 instâncias compatíveis):/opt/dlami/nvme

  • Consulte o AMI-ID com o parâmetro SSM (a região do exemplo é us-east-1):

    • Controlador OSS Nvidia:

      SSM_PARAMETER=base-oss-nvidia-driver-gpu-ubuntu-24.04/latest/ami-id \ aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/$SSM_PARAMETER \ --query "Parameter.Value" \ --output text
  • Consulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):

    • Controlador OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Avisos

Política de suporte

Esses AMIs componentes dessa AMI, como as versões CUDA, podem ser removidos e alterados com base na política de suporte da estrutura ou para otimizar o desempenho de contêineres de aprendizado profundo ou para reduzir o tamanho da AMI em uma versão futura, sem aviso prévio. Removemos as versões CUDA AMIs se elas não forem usadas por nenhuma versão de estrutura compatível.

EC2 instância com várias placas de rede
  • Muitos tipos de instâncias que oferecem suporte ao EFA também têm várias placas de rede.

  • DeviceIndex é exclusivo para cada placa de rede e deve ser um número inteiro não negativo menor que o limite de ENIs per. NetworkCard Em P5, o número de ENIs per NetworkCard é 2, o que significa que os únicos valores válidos para DeviceIndex são 0 ou 1.

    • Para a interface de rede primária (índice da placa de rede 0, índice do dispositivo 0), crie uma interface EFA (EFA com ENA). Você não pode usar uma interface de rede exclusiva do EFA como interface de rede primária.

    • Para cada interface de rede adicional, use o próximo índice de placa de rede não utilizada, o índice de dispositivo 1 e uma interface de rede EFA (EFA com ENA) ou somente EFA, dependendo do seu caso de uso, como requisitos de largura de banda do ENA ou espaço de endereço IP. Por exemplo, casos de uso, consulte a configuração do EFA para instâncias P5.

    • Para obter mais informações, consulte o Guia EFA aqui.

Instâncias P6-B200

As instâncias P6-B200 contêm 8 placas de interface de rede e podem ser iniciadas usando o seguinte comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
5 instâncias abertas

O P5en contém 16 placas de interface de rede e pode ser iniciado usando o seguinte comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instâncias P5/P5e

As instâncias P5 e P5e contêm 32 placas de interface de rede e podem ser iniciadas usando o seguinte comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • A versão do kernel é fixada usando o comando:

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • Recomendamos que os usuários evitem atualizar a versão do kernel (a menos que seja devido a um patch de segurança) para garantir a compatibilidade com os drivers instalados e as versões do pacote. Se os usuários ainda quiserem atualizar, eles podem executar os seguintes comandos para desafixar suas versões do kernel:

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • Para cada nova versão do DLAMI, o kernel compatível mais recente disponível é usado.

Data de lançamento: 2025-07-22

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250722

Atualizado

Data de lançamento: 2025-05-22

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250522

Adicionado

Atualizado

  • Instalador EFA atualizado da versão 1.40.0 para 1.41.0

  • Versão NCCL compilada atualizada da versão 2.25.1 para 2.26.5

  • Versão Nvidia DCGM atualizada de 3.3.9 para 4.4.3

Data de lançamento: 2025-05-13

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250513

Adicionado

  • Lançamento inicial do Deep Learning Base OSS DLAMI para Ubuntu 24.04