AWS AMI de GPU de base de aprendizaje profundo (Ubuntu 24.04) - AWS Deep Learning AMIs

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS AMI de GPU de base de aprendizaje profundo (Ubuntu 24.04)

Si necesita ayuda para empezar, consulteIntroducción a las DLAMI.

Formato de nombre AMI

  • Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 24.04) $ {YYY-MM-DD}

EC2 Instancias compatibles

  • Consulte Cambios importantes en la DLAMI.

  • El controlador Nvidia de aprendizaje profundo con OSS es compatible con G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200.

La AMI incluye lo siguiente:

  • AWS Servicio compatible: Amazon EC2

  • Sistema operativo: Ubuntu 24.04

  • Arquitectura de cómputo: x86

  • La última versión disponible está instalada para los siguientes paquetes:

    • Núcleo de Linux: 6. 8

    • FSx Lustre

    • Docker

    • AWS CLI v2 en/usr/bin/aws

    • NVIDIA DCGM

    • Kit de herramientas de contenedores Nvidia:

      • Comando de versión: -V nvidia-container-cli

    • Nvidia-Docker2:

      • Comando de versión: versión nvidia-docker

  • Controlador NVIDIA: 570.133.20

  • Pila NVIDIA CUDA 12.6 y 12.8:

    • Directorios de instalación de CUDA, NCCL y CUDDN:/-xx.x/ usr/local/cuda

      • Ejemplo:/-12.8/ usr/local/cuda-12.8/ , /usr/local/cuda

    • Versión NCCL compilada: 2.25.1

    • CUDA predeterminado: 12.8

      • PATH/usr/local/cudaapunta a CUDA 12.8

      • Se actualizaron las siguientes variables de entorno:

        • LD_LIBRARY_PATH tendrá/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib

        • PATH para tener//usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include

        • Para cualquier versión de CUDA diferente, actualice LD_LIBRARY_PATH en consecuencia.

  • Instalador de EFA: 1.40.0

  • Nvidia: 2.5.1 GDRCopy

  • AWS OFI NCCL: 1.14.2 aws

    • La ruta de instalación:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/libse agrega a LD_LIBRARY_PATH.

  • AWS CLI v2 en/usr/bin/aws

  • Tipo de volumen de EBS: gp3

  • Python:/usr/bin/python3.12

  • NVMe Ubicación del almacén de instancias (en las EC2 instancias compatibles):/opt/dlami/nvme

  • Consulte el AMI-ID con el parámetro SSM (la región de ejemplo es us-east-1):

    • Controlador OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-24.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Consulta el AMI-ID con AWSCLI (por ejemplo, la región es us-east-1):

    • Controlador OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

​Avisos

Política de Support

Estos AMIs componentes de esta AMI, como las versiones de CUDA, pueden eliminarse y modificarse en función de la política de soporte del marco o para optimizar el rendimiento de los contenedores de aprendizaje profundo o para reducir el tamaño de la AMI en una versión futura, sin previo aviso. Eliminamos las versiones de CUDA AMIs si no se utilizan en ninguna versión de marco compatible.

EC2 instancia con varias tarjetas de red
  • Muchos tipos de instancias que admiten EFA también tienen varias tarjetas de red.

  • DeviceIndex es único para cada tarjeta de red y debe ser un entero no negativo inferior al límite de ENIs per. NetworkCard En P5, el número de ENIs per NetworkCard es 2, lo que significa que los únicos valores válidos DeviceIndex son 0 o 1.

    • Para la interfaz de red principal (índice de tarjeta de red 0, índice de dispositivo 0), cree una interfaz EFA (EFA con ENA). No puede utilizar una interfaz de red exclusiva para EFA como interfaz de red principal.

    • Para cada interfaz de red adicional, utilice el siguiente índice de tarjetas de red no utilizado, el índice de dispositivos 1, y una interfaz de red EFA (EFA con ENA) o solo EFA, según el caso de uso, como los requisitos de ancho de banda de la ENA o el espacio de direcciones IP. Para ver ejemplos de casos de uso, consulte Configuración de EFA para instancias P5.

    • Para obtener más información, consulte la Guía de EFA aquí.

Instancias P6-B200

Las instancias P6-B200 contienen 8 tarjetas de interfaz de red y se pueden iniciar mediante el siguiente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instancias P5en

Las P5en contienen 16 tarjetas de interfaz de red y se pueden iniciar mediante el siguiente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instancias P5/P5e

Las instancias P5 y P5e contienen 32 tarjetas de interfaz de red y se pueden lanzar mediante el siguiente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • La versión del núcleo se fija mediante el comando:

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • Recomendamos a los usuarios que eviten actualizar su versión del núcleo (a menos que sea debido a un parche de seguridad) para garantizar la compatibilidad con los controladores y las versiones de los paquetes instalados. Si los usuarios aún desean actualizar, pueden ejecutar los siguientes comandos para desfijar sus versiones del núcleo:

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • Para cada nueva versión de DLAMI, se utiliza el último núcleo compatible disponible.

Fecha de lanzamiento: 22 de mayo de 2020

Nombre de AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250522

Added

Actualizado

  • Se actualizó el instalador de EFA de la versión 1.40.0 a la 1.41.0

  • Se actualizó la versión NCCL compilada de la versión 2.25.1 a la 2.26.5

  • Se actualizó la versión DCGM de Nvidia de 3.3.9 a 4.4.3

Fecha de lanzamiento: 13 de mayo de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20250513

Added

  • Versión inicial de la DLAMI OSS DLAMI de Deep Learning Base para Ubuntu 24.04