AWS GPU AMI PyTorch 2.6 de aprendizaje profundo (Amazon Linux 2023) - AWS Deep Learning AMIs

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS GPU AMI PyTorch 2.6 de aprendizaje profundo (Amazon Linux 2023)

Si necesita ayuda para empezar, consulteIntroducción a las DLAMI.

Formato de nombre AMI

  • Controlador NVIDIA AMI GPU PyTorch 2.6.0 de Deep Learning OSS (Amazon Linux 2023) $ {YYY-MM-DD}

EC2 Instancias compatibles:

  • Consulte Cambios importantes en la DLAMI

  • El controlador NVIDIA de aprendizaje profundo con OSS es compatible con G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en

La AMI incluye lo siguiente:

  • AWS Servicio compatible: EC2

  • Sistema operativo: Amazon Linux 2023

  • Arquitectura de cómputo: x86

  • Pila de NVIDIA CUDA12 3.6:

    • Ruta de instalación de CUDA, NCCL y CUDDN:/-12.6/ usr/local/cuda

    • CUDA predeterminado: 12.6

      • RUTA/-12.6/ usr/local/cuda points to /usr/local/cuda

      • Actualizado a continuación de las variables de entorno:

        • LD_LIBRARY_PATH tendrá/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib

        • PATH para tener//usr/local/cuda/bin/:/usr/local/cuda/include

    • Versión NCCL compilada para 12.6:2.24.3

  • Lugar de las pruebas de la NCCL:

    • all_reduce, all_gather y reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

    • Para ejecutar las pruebas de NCCL, LD_LIBRARY_PATH ya cuenta con las rutas necesarias actualizadas.

      • Las más comunes ya están añadidas a LD_LIBRARY_PATH: PATHs

        • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

      • LD_LIBRARY_PATH se actualiza con las rutas de la versión CUDA

        • /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib

  • Instalador de EFA: 1.38.0

  • Nvidia: 2.4.1 GDRCopy

  • AWS OFI NCCL: 1.13.2-aws

    • AWS OFI NCCL ahora admite múltiples versiones de NCCL con una sola versión

    • La ruta de instalación:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/libse agrega a LD_LIBRARY_PATH.

  • Versión de Python: 3.12

  • Python:/opt/pytorch/bin/python

  • Controlador NVIDIA: 570.86.15

  • AWS CLI v2 en/usr/bin/aws

  • Tipo de volumen de EBS: gp3

  • NVMe Ubicación del almacén de instancias (en las EC2 instancias compatibles):/opt/dlami/nvme

  • Consulte el AMI-ID con el parámetro SSM (la región de ejemplo es us-east-1):

    • Controlador OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.6-amazon-linux-2023/latest/ami-id  \ --query "Parameter.Value" \ --output text
  • Consulta el AMI-ID con AWSCLI (por ejemplo, la región es us-east-1):

    • Controlador OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6.? (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

​Avisos

PyTorch Obsolescencia del canal Anaconda

A partir de la PyTorch versión 2.6, PyTorch ha dejado de ser compatible con Conda (consulte el anuncio oficial). Como resultado, la versión PyTorch 2.6 y las versiones posteriores pasarán a utilizar entornos virtuales de Python. Para activar el PyTorch venv, utilice las instancias source/opt/pytorch/bin/activateP5/P5e:

  • DeviceIndex es único para cada uno NetworkCard y debe ser un número entero no negativo inferior al límite de per. ENIs NetworkCard En P5, el número de ENIs per NetworkCard es 2, lo que significa que los únicos valores válidos DeviceIndex son 0 o 1. A continuación, se muestra un ejemplo del comando de lanzamiento de una instancia EC2 P5 que utiliza awscli y se muestra NetworkCardIndex del 0 al 31 y DeviceIndex como 0 para la primera interfaz y DeviceIndex como 1 para las 31 restantes.

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • La versión del núcleo se fija mediante el comando: 

    sudo dnf versionlock kernel*
  • Recomendamos a los usuarios que eviten actualizar su versión del núcleo (a menos que se trate de un parche de seguridad) para garantizar la compatibilidad con los controladores y las versiones de los paquetes instalados. Si los usuarios aún desean actualizar, pueden ejecutar los siguientes comandos para desfijar sus versiones del núcleo: 

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • Para cada nueva versión de DLAMI, se utiliza el último núcleo compatible disponible.

Fecha de lanzamiento: 21 de febrero de 2020

Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6.0 (Amazon Linux 2023) 20250220

Added

  • Versión inicial del controlador Nvidia AMI GPU PyTorch 2.6 de Deep Learning OSS para Amazon Linux 2023

    • A partir de la PyTorch versión 2.6, Pytorch dejó de ofrecer soporte para Conda. Como resultado, Pytorch 2.6 y versiones posteriores pasarán a utilizar entornos virtuales Python. Para activar pytorch venv, utilice la fuente/opt/pytorch/bin/activate