AWS GPU AMI PyTorch 2.5 de aprendizaje profundo (Ubuntu 22.04) - AWS Deep Learning AMIs

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS GPU AMI PyTorch 2.5 de aprendizaje profundo (Ubuntu 22.04)

Si necesitas ayuda para empezar, consultaIntroducción a las DLAMI.

Formato de nombre AMI

  • Controlador Nvidia AMI GPU PyTorch 2.5 OSS de aprendizaje profundo. $ {PATCH_VERSION} (Ubuntu 22.04) $ {AAAA-MM-DD}

EC2 Instancias compatibles

  • Consulte Cambios importantes en la DLAMI.

  • El controlador Nvidia de aprendizaje profundo con OSS es compatible con G4dn, G5, G6, Gr6, P4, P4de, P5, P5e, P5en.

La AMI incluye lo siguiente:

  • AWS Servicio compatible: Amazon EC2

  • Sistema operativo: Ubuntu 22.04

  • Arquitectura de cómputo: x86

  • Python:/opt/conda/envs/pytorch/bin/python

  • Controlador NVIDIA:

    • Controlador OSS Nvidia: 550.144.03

  • Pila NVIDIA 1.4 CUDA12:

    • Ruta de instalación de CUDA, NCCL y CUDDN:/-12.4/ usr/local/cuda

    • CUDA predeterminado: 12.4

      • RUTA/-12.4/ usr/local/cuda points to /usr/local/cuda

      • Actualizado a continuación de las variables de entorno:

        • LD_LIBRARY_PATH tendrá/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib

        • PATH para tener//usr/local/cuda/bin/:/usr/local/cuda/include

    • Sistema compilado (versión NCCL) presente enusr/local/cuda/: 2.21.5

    • PyTorch Versión NCCL compilada del entorno conda: 2.21.5 PyTorch

  • Ubicación de las pruebas de la NCCL:

    • all_reduce, all_gather y reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

    • Para ejecutar las pruebas de NCCL, LD_LIBRARY_PATH ya cuenta con las rutas necesarias actualizadas.

      • Las más comunes ya están añadidas a LD_LIBRARY_PATH: PATHs

        • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

    • LD_LIBRARY_PATH se actualiza con las rutas de la versión CUDA

      • /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib

  • Instalador de EFA: 1.34.0

  • Nvidia: 2.4.1 GDRCopy

  • Motor Nvidia Transformer: v1.11.0

  • AWS OFI NCCL: 1.11.0-aws

    • La ruta de instalación:/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libse agrega a LD_LIBRARY_PATH.

    • Comprueba la ruta del anillo, message_transfer:/opt/aws-ofi-nccl/tests

    • Nota: el PyTorch paquete también viene con el complemento AWS OFI NCCL vinculado dinámicamente como paquete conda y PyTorch utilizará ese aws-ofi-nccl-dlc paquete en lugar del OFI NCCL del sistema. AWS

  • AWS CLI v2 como aws2 y v1 como aws AWS CLI

  • Tipo de volumen de EBS: gp3

  • Versión de Python: 3.11

  • Consulte el AMI-ID con el parámetro SSM (la región de ejemplo es us-east-1):

    • Controlador OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.5-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Consulta el AMI-ID con AWSCLI (por ejemplo, la región es us-east-1):

    • Controlador OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

​Avisos

Instancias P5/P5e:

  • DeviceIndex es exclusivo de cada una NetworkCard y debe ser un número entero no negativo inferior al límite de per. ENIs NetworkCard En P5, el número de ENIs per NetworkCard es 2, lo que significa que los únicos valores válidos DeviceIndex son 0 o 1. A continuación, se muestra un ejemplo del comando de lanzamiento de una instancia EC2 P5 que utiliza awscli y se muestra NetworkCardIndex del 0 al 31 y DeviceIndex como 0 para la primera interfaz y DeviceIndex como 1 para las 31 restantes.

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • La versión del núcleo se fija mediante el comando:

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • Recomendamos a los usuarios que eviten actualizar su versión del núcleo (a menos que se trate de un parche de seguridad) para garantizar la compatibilidad con los controladores y las versiones de los paquetes instalados. Si los usuarios aún desean actualizar, pueden ejecutar los siguientes comandos para desbloquear sus versiones del núcleo:

    echo linux-aws install | sudo dpkg —set-selections echo linux-headers-aws install | sudo dpkg —set-selections echo linux-image-aws install | sudo dpkg —set-selections apt-get upgrade -y
  • Para cada nueva versión de DLAMI, se utiliza el último núcleo compatible disponible.

Fecha de lanzamiento: 17/02/2020

Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Ubuntu 22.04) 20250216

Actualizado

Eliminaciones

Fecha de lanzamiento: 21 de enero de 2020

Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Ubuntu 22.04) 20250119

Actualizado

Fecha de lanzamiento: 21 de noviembre de 2021

Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Ubuntu 22.04) 20241121

Added

  • Versión inicial de la serie Deep Learning AMI GPU PyTorch 2.4.1 (Ubuntu 22.04). Incluye un entorno conda pytorch complementado con el controlador NVIDIA R550, CUDA=12.4.1, CUDNN=8.9.7, NCCL=2.21.5 y EFA=1.37.0. PyTorch

Fixed

  • Debido a un cambio en el núcleo de Ubuntu para corregir un defecto en la funcionalidad de aleatorización del diseño del espacio de direcciones del núcleo (KASLR), las instancias G4Dn/G5 no pueden inicializar CUDA correctamente en el controlador OSS Nvidia. Para mitigar este problema, esta DLAMI incluye una funcionalidad que carga dinámicamente el controlador propietario para las instancias G4Dn y G5. Espere un breve período de inicialización para esta carga a fin de garantizar que sus instancias puedan funcionar correctamente.

    • Para comprobar el estado y el estado de este servicio, puede utilizar los siguientes comandos:

sudo systemctl is-active dynamic_driver_load.service active