AWS GPU AMI de aprendizado profundo PyTorch 2.5 (Amazon Linux 2023) - AMIs de deep learning da AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS GPU AMI de aprendizado profundo PyTorch 2.5 (Amazon Linux 2023)

Para obter ajuda para começar, consulteConceitos básicos da DLAMI.

Formato de nome da AMI

  • Driver OSS Nvidia de aprendizado profundo AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) $ {YYYY-MM-DD}

EC2 Instâncias suportadas

A AMI inclui o seguinte:

  • AWS Serviço suportado: EC2

  • Sistema operacional: Amazon Linux 2023

  • Arquitetura de computação: x86

  • Pilha NVIDIA CUDA12 4.4:

    • Caminho de instalação de CUDA, NCCL e cuDDN:/-12.4/ usr/local/cuda

    • CUDA padrão: 12,4

      • CAMINHO/usr/local/cuda points to /usr/local/cuda-12.4/

      • Variáveis de ambiente atualizadas abaixo:

        • LD_LIBRARY_PATH para ter/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib

        • PATH para ter/usr/local/cuda/bin/:/usr/local/cuda/include/

    • Versão NCCL compilada para 12.4:2.21.5

  • Local dos testes NCCL:

    • all_reduce, all_gather e reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

    • Para executar testes NCCL, o LD_LIBRARY_PATH já está atualizado com os caminhos necessários.

      • PATHs Os comuns já foram adicionados ao LD_LIBRARY_PATH:

        • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

    • LD_LIBRARY_PATH é atualizado com caminhos de versão CUDA

      • /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib

  • Instalador EFA: 1.38.0

  • Nvidia GDRCopy: 2.4.1

  • AWS OFI NCCL: 1.13.2-aws

    • AWS O OFI NCCL agora suporta várias versões do NCCL com uma única compilação

    • O caminho de instalação:/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libé adicionado ao LD_LIBRARY_PATH.

    • Testa o caminho para o anel, message_transfer:/opt/aws-ofi-nccl/tests

  • Versão Python: 3.11

  • Python:/opt/conda/envs/pytorch/bin/python

  • Driver NVIDIA: 560.35.03

  • AWS CLI v2 em/usr/bin/aws

  • Tipo de volume do EBS: gp3

  • NVMe Local do armazenamento de instâncias (em EC2 instâncias compatíveis):/opt/dlami/nvme

  • Consulte o AMI-ID com o parâmetro SSM (a região do exemplo é us-east-1):

    • Controlador OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.5-amazon-linux-2023/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Consulte o AMI-ID com AWSCLI (a região de exemplo é us-east-1):

    • Controlador OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.? (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Avisos

Instâncias P5/P5e:

  • DeviceIndex é exclusivo para cada um NetworkCard e deve ser um número inteiro não negativo menor que o limite de ENIs per. NetworkCard Em P5, o número de ENIs per NetworkCard é 2, o que significa que os únicos valores válidos para DeviceIndex são 0 ou 1. Abaixo está o exemplo do comando de inicialização da instância EC2 P5 usando awscli que aparece NetworkCardIndex do número 0-31 e DeviceIndex como 0 para a primeira interface e DeviceIndex como 1 para as demais 31 interfaces.

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • A versão do kernel é fixada usando o comando:

    sudo dnf versionlock kernel*
  • Recomendamos que os usuários evitem atualizar a versão do kernel (a menos que seja devido a um patch de segurança) para garantir a compatibilidade com os drivers instalados e as versões do pacote. Se os usuários ainda quiserem atualizar, eles podem executar os seguintes comandos para desafixar suas versões do kernel:

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • Para cada nova versão do DLAMI, o kernel compatível mais recente disponível é usado.

Data de lançamento: 2025-02-17

Nome da AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250216

Atualizado

  • Kit de ferramentas de contêiner NVIDIA atualizado da versão 1.17.3 para a versão 1.17.4

    • Consulte a página de notas de lançamento aqui para obter mais informações: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4

    • Na versão 1.17.4 do Container Toolkit, a montagem das bibliotecas de compatibilidade CUDA agora está desativada. Para garantir a compatibilidade com várias versões do CUDA em fluxos de trabalho de contêiner, certifique-se de atualizar seu LD_LIBRARY_PATH para incluir suas bibliotecas de compatibilidade CUDA, conforme mostrado no tutorial Se você usar uma camada de compatibilidade CUDA.

Removido

Data de lançamento: 2025-01-08

Nome da AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250107

Adicionado

Data de lançamento: 2024-11-21

Nome da AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20241120

Adicionado

  • Lançamento inicial do Deep Learning OSS Nvidia Driver AMI GPU 2.5 PyTorch para Amazon Linux 2023

Problemas conhecidos

  • Esse DLAMI não oferece suporte às instâncias G4dn e EC2 G5 no momento. AWS está ciente de uma incompatibilidade que pode resultar em falhas de inicialização do CUDA, afetando as famílias de instâncias G4dn e G5 ao usar os drivers NVIDIA de código aberto junto com um kernel Linux versão 6.1 ou mais recente. Esse problema afeta distribuições Linux, como Amazon Linux 2023, Ubuntu 22.04 ou mais recente, ou SUSE Linux Enterprise Server 15 SP6 ou mais recente, entre outras.