AWS GPU AMI de aprendizaje profundo OSS PyTorch 2.7 (Amazon Linux 2023) - AWS Deep Learning AMIs

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS GPU AMI de aprendizaje profundo OSS PyTorch 2.7 (Amazon Linux 2023)

Si necesita ayuda para empezar, consulteIntroducción a las DLAMI.

Formato de nombre AMI

  • Controlador Nvidia de aprendizaje profundo OSS Nvidia GPU PyTorch 2.7 (Amazon Linux 2023) $ {YYY-MM-DD}

EC2 Instancias compatibles

La AMI incluye lo siguiente:

  • AWS Servicio compatible: Amazon EC2

  • Sistema operativo: Amazon Linux 2023

  • Arquitectura informática: x86

  • Núcleo de Linux: 6.1

  • Controlador NVIDIA: 570.133.20

  • Pila NVIDIA CUDA 12.8:

    • Directorios de instalación de CUDA, NCCL y CUDDN:/-12.8/ usr/local/cuda

    • Ubicación de las pruebas del NCCL:

      • all_reduce, all_gather y reduce_scatter:

        /usr/local/cuda-12.8/efa/test-cuda-12.8/
      • Para ejecutar las pruebas de la NCCL, LD_LIBRARY_PATH ya está actualizado con las rutas necesarias.

        • Las más comunes ya están añadidas a LD_LIBRARY_PATH: PATHs

          /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/amazon/ofi-nccl/lib:/usr/local/lib:/usr/lib
        • LD_LIBRARY_PAT se actualiza con las rutas de la versión CUDA:

          /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
    • Versión NCCL compilada:

      • Para el directorio CUDA de 12.8, compiló la versión 2.26.2+ .8 de NCCL. CUDA12

    • CUDA predeterminado: 12.8

      • PATH/usr/local/cudaapunta a CUDA 12.8

      • Actualizado a continuación de las variables de entorno:

        • LD_LIBRARY_PATH tendrá/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda/targets/x86_64-linux/lib

        • PATH para tener//usr/local/cuda/bin/:/usr/local/cuda/include

  • Instalador de EFA: 1.40.0

  • Nvidia: 2.5 GDRCopy

  • AWS OFI NCCL: 1.14.2 ejes

    • La ruta de instalación:/se agrega a LD_LIBRARY_PATH opt/amazon/ofi-nccl/. Path /opt/amazon/ofi-nccl/lib

  • AWS CLI v2 en/usr/local/bin/aws

  • Tipo de volumen de EBS: gp3

  • Kit de herramientas de contenedores Nvidia: 1.17.7

    • Comando de versión: -V nvidia-container-cli

  • Docker: 25.0.8

  • Python:/usr/bin/python3.12

  • Consulte el AMI-ID con el parámetro SSM (la región de ejemplo es us-east-1):

    aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.7-amazon-linux-2023/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Consulta el AMI-ID con AWSCLI (la región de ejemplo es us-east-1):

    aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.7 (Amazon Linux 2023) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

​Avisos

Instancias P6-B200

  • Las instancias P6-B200 requieren la versión 12.8 o superior de CUDA y el controlador NVIDIA 570 o controladores posteriores.

  • El P6-B200 contiene 8 tarjetas de interfaz de red y se puede iniciar mediante el siguiente comando CLI AWS :

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... .... .... "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Instancias P5/P5e

  • DeviceIndex es exclusivo de cada una NetworkCard y debe ser un número entero no negativo inferior al límite de per. ENIs NetworkCard En P5, el número de ENIs per NetworkCard es 2, lo que significa que los únicos valores válidos DeviceIndex son 0 o 1. A continuación, se muestra un ejemplo del comando de lanzamiento de una instancia de EC2 P5 en el que se utiliza awscli NetworkCardIndex para los números del 0 al 31 y DeviceIndex se muestra un 0 para la primera interfaz y un 1 para las 31 interfaces restantes.

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ .... .... .... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Kernel

  • La versión del núcleo se fija mediante el comando:

    sudo dnf versionlock kernel*
  • Recomendamos a los usuarios que eviten actualizar su versión del núcleo (a menos que se trate de un parche de seguridad) para garantizar la compatibilidad con los controladores y las versiones de los paquetes instalados. Si los usuarios aún desean actualizar, pueden ejecutar los siguientes comandos para desbloquear sus versiones del núcleo:

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • Para cada nueva versión de DLAMI, se utiliza el último núcleo compatible disponible.

PyTorch Obsolescencia del canal Anaconda

A partir de la PyTorch versión 2.6, PyTorch ha dejado de ser compatible con Conda (consulte el anuncio oficial). Como resultado, la versión PyTorch 2.6 y las versiones posteriores pasarán a utilizar entornos virtuales de Python. Para activar el PyTorch venv, utilice la fuente/opt/pytorch/bin/activate

Fecha de lanzamiento: 22-05-2020

Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.7 (Amazon Linux 2023) 20250520

Added

  • Versión inicial de la serie Deep Learning AMI GPU PyTorch 2.7 (Amazon Linux 2023). Incluye un entorno virtual Python pytorch (source/opt/pytorch/bin/activate) complementado con el controlador NVIDIA R570, CUDA=12.8, CUDNN=9.10, NCCL=2.26.2 y EFA=1.40.0. PyTorch