AWS AMI de GPU de ARM64 base de aprendizado profundo (Amazon Linux 2023) - AMIs de deep learning da AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS AMI de GPU de ARM64 base de aprendizado profundo (Amazon Linux 2023)

Para obter ajuda para começar, consulteConceitos básicos da DLAMI.

Formato de nome da AMI

  • ARM64 Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Amazon Linux 2023) $ {YYYY-MM-DD}

EC2 Instâncias suportadas

  • G5g, P6e- GB2 00 (CUDA>=12.8 é suportado em P6e- 00) GB2

A AMI inclui o seguinte:

  • AWS Serviço suportado: Amazon EC2

  • Sistema operacional: Amazon Linux 2023

  • Arquitetura de computação: ARM64

  • A versão mais recente disponível está instalada para os seguintes pacotes:

    • Kernel Linux: 6. 12

    • FSx Lustre

    • Docker

    • AWS CLI v2 em/usr/bin/aws

    • NVIDIA DCGM

    • Kit de ferramentas de contêiner Nvidia:

      • Comando de versão: nvidia-container-cli -V

    • NVIDIA-Docker 2:

      • Comando de versão: versão nvidia-docker

  • Driver NVIDIA: 570.158.01

  • Pilha NVIDIA CUDA 12.4, 12,5, 12,6, 12,8:

    • Diretórios de instalação CUDA, NCCL e cuDDN:/-xx.x/ usr/local/cuda

      • Exemplo:/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/

    • Versão compilada da NCCL:

      • Para o diretório CUDA de 12.4, compilou a versão NCCL 2.22.3+ .4 CUDA12

      • Para o diretório CUDA de 12.5, compilou a versão NCCL 2.22.3+ .5 CUDA12

      • Para o diretório CUDA de 12.6, compilou a versão NCCL 2.24.3+ .6 CUDA12

      • Para o diretório CUDA de 12.8, compilou a versão NCCL 2.27.5+ .8 CUDA12

    • CUDA padrão: 12,8

      • PATH/usr/local/cudaaponta para CUDA 12.8

      • Variáveis de ambiente atualizadas abaixo:

        • LD_LIBRARY_PATH deve ter/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib

        • PATH para ter/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.

  • Instalador EFA: 1.42.0

  • Nvidia GDRCopy: 2.5.1

  • AWS O plugin OFI NCCL vem com o instalador EFA

    • Os caminhos/opt/amazon/ofi-nccl/lib and /opt/amazon/ofi-nccl/efasão adicionados ao LD_LIBRARY_PATH.

  • AWS CLI v2 em/usr/local/bin/aws

  • Tipo de volume do EBS: gp3

  • Python:/3.9 usr/bin/python

  • Consulte o AMI-ID com o parâmetro SSM (a região de exemplo é us-east-1):

    SSM_PARAMETER=base-oss-nvidia-driver-gpu-amazon-linux-2023/latest/ami-id \ aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/arm64/$SSM_PARAMETER \ --query "Parameter.Value" \ --output text
  • Consulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):

    aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
P6-00 instâncias GB2

As instâncias P6e- GB2 00 contêm 17 placas de interface de rede e podem ser iniciadas usando o seguinte comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces \ "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=interface" \ "NetworkCardIndex=1,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=2,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=3,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=4,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=5,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=6,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=7,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=8,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=9,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=10,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=11,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=12,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=13,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=14,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=15,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=16,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only"

Avisos

Kit de ferramentas de contêiner NVIDIA 1.17.4

No Container Toolkit versão 1.17.4, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêiner, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial Se você usar uma camada de compatibilidade CUDA.

Política de suporte

Esses AMIs componentes dessa AMI, como as versões CUDA, podem ser removidos e alterados com base na política de suporte da estrutura ou para otimizar o desempenho de contêineres de aprendizado profundo ou para reduzir o tamanho da AMI em uma versão futura, sem aviso prévio. Removemos as versões CUDA AMIs se elas não forem usadas por nenhuma versão de estrutura compatível.

Kernel
  • A versão do kernel é fixada usando o comando:

    sudo dnf versionlock kernel*
  • Recomendamos que os usuários evitem atualizar a versão do kernel (a menos que seja devido a um patch de segurança) para garantir a compatibilidade com os drivers instalados e as versões do pacote. Se os usuários ainda quiserem atualizar, eles podem executar os seguintes comandos para liberar suas versões do kernel:

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • Para cada nova versão do DLAMI, o kernel compatível mais recente disponível é usado.

Data de lançamento: 2025-07-04

Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250704

Atualizado

  • Foi adicionado suporte à EC2 instância P6e- 00. GB2 Observe que CUDA>=12.8 é suportado no P6e- 00 GB2

  • Adicionar EFA 1.42.0

  • Driver Nvidia atualizado da versão 570.133.20 para 570.158.01

  • Pilha CUDA 12.8 atualizada com NCCL 2.27.5

Data de lançamento: 2025-04-24

Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250424

Atualizado

Data de lançamento: 2025-04-22

Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250421

Atualizado

Data de lançamento: 2025-04-04

Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250404

Atualizado

  • Versão do kernel atualizada de 6.1 para 6.12

Data de lançamento: 2025-03-03

Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250303

Atualizado

  • Driver Nvidia de 550.144.03 a 570.86.15

  • O CUDA padrão foi alterado de CUDA12 4,4 para 0,6 CUDA12

Adicionado

  • Diretório CUDA de 12.5 com NCCL versão CUDA12 2.22.3+ .5 compilada e cuDNN 9.7.1.26

  • Diretório CUDA de 12.6 com NCCL versão CUDA12 2.24.3+ .6 compilada e cuDNN 9.7.1.26

  • Diretório CUDA de 12.8 com NCCL compilado versão CUDA12 2.25.1+ .8 e cuDNN 9.7.1.26

Data de lançamento: 2025-02-14

Nome da AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250214

Adicionado

  • Lançamento inicial do Deep Learning ARM64 Base OSS DLAMI para Amazon Linux 2023