AWS AMI de GPU de ARM64 base de aprendizado profundo (Ubuntu 22.04) - AMIs de deep learning da AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS AMI de GPU de ARM64 base de aprendizado profundo (Ubuntu 22.04)

Para obter ajuda para começar, consulteConceitos básicos da DLAMI.

Formato de nome da AMI

  • ARM64 Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Ubuntu 22.04) $ {YYYY-MM-DD}

EC2 Instâncias suportadas

  • G5g, P6e- GB2 00 (CUDA>=12.8 é suportado em P6e- 00) GB2

A AMI inclui o seguinte:

  • AWS Serviço suportado: Amazon EC2

  • Sistema operacional: Ubuntu 22.04

  • Arquitetura de computação: ARM64

  • A versão mais recente disponível está instalada para os seguintes pacotes:

    • Kernel Linux: 6. 8

    • FSx Lustro

    • Docker

    • AWS CLI v2 em/usr/bin/aws

    • NVIDIA DCGM

    • Kit de ferramentas de contêiner Nvidia:

      • Comando de versão: nvidia-container-cli -V

    • NVIDIA-Docker 2:

      • Comando de versão: versão nvidia-docker

  • Driver NVIDIA: 570.158.01

  • Pilha NVIDIA CUDA 12.4, 12,5, 12,6, 12,8:

    • Diretórios de instalação CUDA, NCCL e cuDDN:/-xx.x/ usr/local/cuda

      • Exemplo:/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/

    • Versão compilada da NCCL:

      • Para o diretório CUDA de 12.4, compilou a versão NCCL 2.22.3+ .4 CUDA12

      • Para o diretório CUDA de 12.5, compilou a versão NCCL 2.22.3+ .5 CUDA12

      • Para o diretório CUDA de 12.6, compilou a versão NCCL 2.24.3+ .6 CUDA12

      • Para o diretório CUDA de 12.8, compilou a versão NCCL 2.27.5+ .8 CUDA12

    • CUDA padrão: 12,8

      • PATH/usr/local/cudaaponta para CUDA 12.8

      • Variáveis de ambiente atualizadas abaixo:

        • LD_LIBRARY_PATH deve ter/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib

        • PATH para ter/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.

  • Instalador EFA: 1.42.0

  • Nvidia GDRCopy: 2.5.1

  • AWS O plugin OFI NCCL vem com o instalador EFA

    • Os caminhos/opt/amazon/ofi-nccl/lib and /opt/amazon/ofi-nccl/efasão adicionados ao LD_LIBRARY_PATH.

  • AWS CLI v2 em/usr/local/bin/aws2 e AWS CLI v1 em/usr/bin/aws

  • Tipo de volume do EBS: gp3

  • Python:/3.10 usr/bin/python

  • Consulte o AMI-ID com o parâmetro SSM (a região do exemplo é us-east-1):

    SSM_PARAMETER=base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \ aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/arm64/$SSM_PARAMETER \ --query "Parameter.Value" \ --output text
  • Consulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):

    aws ec2 describe-images --region us-east-1 \ --owners amazon --filters 'Name=name,Values=Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
P6-00 instâncias GB2

As instâncias P6e- GB2 00 contêm 17 placas de interface de rede e podem ser iniciadas usando o seguinte comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces \ "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=interface" \ "NetworkCardIndex=1,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=2,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=3,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=4,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=5,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=6,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=7,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=8,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=9,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=10,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=11,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=12,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=13,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=14,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=15,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=16,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only"

Avisos

Kit de ferramentas de contêiner NVIDIA 1.17.4

No Container Toolkit versão 1.17.4, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêiner, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial Se você usar uma camada de compatibilidade CUDA.

Suporte para vários ENI
#cloud-config # apply network config on every boot and hotplug event updates: network: when: ['boot', 'hotplug']

Política de suporte

Esses AMIs componentes dessa AMI, como as versões CUDA, podem ser removidos e alterados com base na política de suporte da estrutura ou para otimizar o desempenho de contêineres de aprendizado profundo ou para reduzir o tamanho da AMI em uma versão futura, sem aviso prévio. Removemos as versões CUDA AMIs se elas não forem usadas por nenhuma versão de estrutura compatível.

Kernel
  • A versão do kernel é fixada usando o comando:

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • Recomendamos que os usuários evitem atualizar a versão do kernel (a menos que seja devido a um patch de segurança) para garantir a compatibilidade com os drivers instalados e as versões do pacote. Se os usuários ainda quiserem atualizar, eles podem executar os seguintes comandos para desafixar suas versões do kernel:

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • Para cada nova versão do DLAMI, o kernel compatível mais recente disponível é usado.

Data de lançamento: 2025-07-04

Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250704

Atualizado

  • Foi adicionado suporte à EC2 instância P6e- 00. GB2 Observe que CUDA>=12.8 é suportado no P6e- 00 GB2

  • Adicionar EFA 1.42.0

  • Driver Nvidia atualizado da versão 570.133.20 para 570.158.01

  • Pilha CUDA 12.8 atualizada com NCCL 2.27.5

Data de lançamento: 2025-04-24

Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250424

Atualizado

Data de lançamento: 2025-03-03

Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250303

Atualizado

  • Driver Nvidia de 550.144.03 a 570.86.15

  • O CUDA padrão foi alterado de CUDA12 0,1 para 6. CUDA12

Adicionado

  • Diretório CUDA de 12.4 com NCCL versão CUDA12 2.22.3+ .4 compilada e cuDNN 9.7.1.26

  • Diretório CUDA de 12.5 com NCCL versão CUDA12 2.22.3+ .5 compilada e cuDNN 9.7.1.26

  • Diretório CUDA de 12.6 com NCCL versão CUDA12 2.24.3+ .6 compilada e cuDNN 9.7.1.26

  • Diretório CUDA de 12.8 com NCCL compilado versão CUDA12 2.25.1+ .8 e cuDNN 9.7.1.26

Removido

  • Diretório CUDA de 12.1 e 12.2

Data de lançamento: 2025-02-17

Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250214

Atualizado

  • Kit de ferramentas de contêiner NVIDIA atualizado da versão 1.17.3 para a versão 1.17.4

    • Consulte a página de notas de lançamento aqui para obter mais informações: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4

    • Na versão 1.17.4 do Container Toolkit, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêiner, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial Se você usar uma camada de compatibilidade CUDA.

Removido

Data de lançamento: 2025-01-17

Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250117

Atualizado

Data de lançamento: 2024-10-23

Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241023

Atualizado

Data de lançamento: 2024-06-06

Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240606

Atualizado

  • Versão atualizada do driver Nvidia para 535.183.01 de 535.161.08

Data de lançamento: 2024-05-15

Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240514

Adicionado

  • Lançamento inicial do Deep Learning ARM64 Base OSS DLAMI para Ubuntu 22.04