AWS AMI de GPU de base de aprendizado profundo (Amazon Linux 2023) - AMIs de deep learning da AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS AMI de GPU de base de aprendizado profundo (Amazon Linux 2023)

Para obter ajuda para começar, consulteConceitos básicos da DLAMI.

Formato de nome da AMI

  • Base de aprendizado profundo OSS Nvidia Driver GPU AMI (Amazon Linux 2023) $ {YYYY-MM-DD}

EC2 Instâncias suportadas

A AMI inclui o seguinte:

  • AWS Serviço suportado: Amazon EC2

  • Sistema operacional: Amazon Linux 2023

  • Arquitetura de computação: x86

  • A versão mais recente disponível está instalada para os seguintes pacotes:

    • Kernel Linux: 6.1

    • FSx Lustre

    • NVIDIA GDS

    • Docker

    • AWS CLI v2 em/usr/local/bin/aws2 e AWS CLI v1 em/usr/bin/aws

    • NVIDIA DCGM

    • Kit de ferramentas de contêiner Nvidia:

      • Comando de versão: nvidia-container-cli -V

    • NVIDIA-Docker 2:

      • Comando de versão: versão nvidia-docker

  • Driver NVIDIA: 570.133.20

  • Pilha NVIDIA CUDA 12.4-12.6 e 12.8:

    • Diretórios de instalação CUDA, NCCL e cuDDN:/-xx.x/ usr/local/cuda

      • Exemplo:/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/

    • Versão compilada da NCCL: 2.26.5

    • CUDA padrão: 12,8

      • PATH/usr/local/cudaaponta para CUDA 12.8

      • Variáveis de ambiente atualizadas abaixo:

        • LD_LIBRARY_PATH para ter/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.4/targets/x86_64-linux/lib

        • PATH para ter/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • Para qualquer versão diferente do CUDA, atualize LD_LIBRARY_PATH adequadamente.

  • Instalador EFA: 1.40.0

  • Nvidia GDRCopy: 2,5

  • AWS OFI NCCL: 1.14.2-aws

    • AWS O OFI NCCL agora suporta várias versões do NCCL com uma única compilação

    • O caminho de instalação:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/libé adicionado ao LD_LIBRARY_PATH.

  • AWS CLI v2 em/usr/local/bin/aws2 e AWS CLI v1 em/usr/bin/aws

  • Tipo de volume do EBS: gp3

  • Python:/3.9 usr/bin/python

  • NVMe Local do armazenamento de instâncias (em EC2 instâncias compatíveis):/opt/dlami/nvme

  • Consulte o AMI-ID com o parâmetro SSM (a região do exemplo é us-east-1):

    • Controlador OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-al2023/latest/ami-id \ --query "Parameter.Value" --output text
  • Consulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):

    • Controlador OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Avisos

Kit de ferramentas de contêiner NVIDIA 1.17.4

No Container Toolkit versão 1.17.4, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêineres, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial Se você usar uma camada de compatibilidade CUDA.

Política de suporte

Esses AMIs componentes dessa AMI, como as versões CUDA, podem ser removidos e alterados com base na política de suporte da estrutura ou para otimizar o desempenho de contêineres de aprendizado profundo ou para reduzir o tamanho da AMI em uma versão futura, sem aviso prévio. Removemos as versões CUDA AMIs se elas não forem usadas por nenhuma versão de estrutura compatível.

Instâncias P6-B200

As instâncias P6-B200 contêm 8 placas de interface de rede e podem ser iniciadas usando o seguinte comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
5 instâncias abertas

As instâncias P5en contêm 16 placas de interface de rede e podem ser iniciadas usando o seguinte comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instâncias P5/P5e

As instâncias P5 e P5e contêm 32 placas de interface de rede e podem ser iniciadas usando o seguinte comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • A versão do kernel é fixada usando o comando:

    sudo dnf versionlock kernel*
  • Recomendamos que os usuários evitem atualizar a versão do kernel (a menos que seja devido a um patch de segurança) para garantir a compatibilidade com os drivers instalados e as versões do pacote. Se os usuários ainda quiserem atualizar, eles podem executar os seguintes comandos para desafixar suas versões do kernel:

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • Para cada nova versão do DLAMI, o kernel compatível mais recente disponível é usado.

Data de lançamento: 2025-05-15

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250515

Adicionado

Atualizado

  • Instalador EFA atualizado da versão 1.38.1 para 1.40.0

  • Atualizado GDRCopy da versão 2.4 para 2.5

  • Plugin AWS OFI NCCL atualizado da versão 1.13.0-aws para 1.14.2-aws

  • Versão NCCL compilada atualizada da versão 2.25.1 para 2.26.5

  • Versão CUDA padrão atualizada da versão 12.6 para 12.8

  • Versão Nvidia DCGM atualizada de 3.3.9 para 4.4.3

Data de lançamento: 2025-04-22

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250421

Atualizado

Data de lançamento: 2025-03-31

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250328

Adicionado

Data de lançamento: 2025-02-17

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 2025-02-15

Atualizado

  • Kit de ferramentas de contêiner NVIDIA atualizado da versão 1.17.3 para a versão 1.17.4

    • Consulte a página de notas de lançamento aqui para obter mais informações: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4

    • Na versão 1.17.4 do Container Toolkit, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêineres, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial Se você usar uma camada de compatibilidade CUDA.

Removido

Data de lançamento: 2025-02-05

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250205

Adicionado

  • Foi adicionado o kit de ferramentas CUDA versão 12.6 no diretório/-12.6 usr/local/cuda

  • Suporte adicional para instâncias G5 EC2

Removido

Data de lançamento: 2025-02-03

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250131

Atualizado

  • Versão EFA atualizada de 1.37.0 para 1.38.0

    • O EFA agora inclui o plug-in AWS OFI NCCL, que agora pode ser encontrado em/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Se estiver atualizando sua variável LD_LIBRARY_PATH, certifique-se de modificar a localização do OFI NCCL corretamente.

  • Kit de ferramentas de contêiner Nvidia atualizado de 1.17.3 para 1.17.4

Data de lançamento: 2025-01-08

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250107

Atualizado

  • Suporte adicionado para instâncias G4dn

Data de lançamento: 2024-12-09

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241206

Atualizado

  • Kit de ferramentas de contêiner Nvidia atualizado da versão 1.17.0 para 1.17.3

Data de lançamento: 2024-11-21

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241121

Adicionado

  • Foi adicionado suporte para instâncias P5en. EC2

Atualizado

  • Instalador EFA atualizado da versão 1.35.0 para 1.37.0

  • Atualize o plug-in AWS OFI NCCL da versão 1.121-aws para 1.13.0-aws

Data de lançamento: 2024-10-30

Nome da AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241030

Adicionado

  • Lançamento inicial do Deep Learning Base OSS DLAMI para Amazon Linux 2023

Problemas conhecidos

  • Esse DLAMI não oferece suporte às instâncias G4dn e EC2 G5 no momento. AWS está ciente de uma incompatibilidade que pode resultar em falhas de inicialização do CUDA, afetando as famílias de instâncias G4dn e G5 ao usar os drivers NVIDIA de código aberto junto com um kernel Linux versão 6.1 ou mais recente. Esse problema afeta distribuições Linux, como Amazon Linux 2023, Ubuntu 22.04 ou mais recente, ou SUSE Linux Enterprise Server 15 SP6 ou mais recente, entre outras.