AWS AMI de GPU de base de aprendizaje profundo (Amazon Linux 2023) - AWS Deep Learning AMIs

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS AMI de GPU de base de aprendizaje profundo (Amazon Linux 2023)

Si necesita ayuda para empezar, consulteIntroducción a las DLAMI.

Formato de nombre AMI

  • Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) $ {YYY-MM-DD}

EC2 Instancias compatibles

  • Consulte Cambios importantes en la DLAMI

  • El controlador Nvidia de aprendizaje profundo con OSS es compatible con G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200

La AMI incluye lo siguiente:

  • AWS Servicio compatible: Amazon EC2

  • Sistema operativo: Amazon Linux 2023

  • Arquitectura de cómputo: x86

  • La última versión disponible está instalada para los siguientes paquetes:

    • Núcleo de Linux: 6.1

    • FSx Lustre

    • NVIDIA GDS

    • Docker

    • AWS CLI v2 en/usr/local/bin/aws2 y AWS CLI v1 en/usr/bin/aws

    • NVIDIA DCGM

    • Kit de herramientas de contenedores Nvidia:

      • Comando de versión: -V nvidia-container-cli

    • Nvidia-Docker2:

      • Comando de versión: versión nvidia-docker

  • Controlador NVIDIA: 570.133.20

  • Pila NVIDIA CUDA 12.4-12.6 y 12.8:

    • Directorios de instalación de CUDA, NCCL y CUDDN:/-xx.x/ usr/local/cuda

      • Ejemplo:/-12.8/ usr/local/cuda-12.8/ , /usr/local/cuda

    • Versión NCCL compilada: 2.26.5

    • CUDA predeterminado: 12.8

      • PATH/usr/local/cudaapunta a CUDA 12.8

      • Se actualizaron las siguientes variables de entorno:

        • LD_LIBRARY_PATH tendrá/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.4/targets/x86_64-linux/lib

        • PATH para tener//usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include

        • Para cualquier versión de CUDA diferente, actualice LD_LIBRARY_PATH en consecuencia.

  • Instalador de EFA: 1.40.0

  • Nvidia: 2.5 GDRCopy

  • AWS OFI NCCL: 1.14.2 ejes

    • AWS OFI NCCL ahora admite múltiples versiones de NCCL con una sola versión

    • La ruta de instalación:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/libse agrega a LD_LIBRARY_PATH.

  • AWS CLI v2 en/2 y v1 en/usr/local/bin/aws AWS CLI usr/bin/aws

  • Tipo de volumen de EBS: gp3

  • Python:/usr/bin/python3.9

  • NVMe Ubicación del almacén de instancias (en EC2 las instancias compatibles):/opt/dlami/nvme

  • Consulte el AMI-ID con el parámetro SSM (la región de ejemplo es us-east-1):

    • Controlador OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-al2023/latest/ami-id \ --query "Parameter.Value" --output text
  • Consulta el AMI-ID con AWSCLI (por ejemplo, la región es us-east-1):

    • Controlador OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

​Avisos

Kit de herramientas de contenedores NVIDIA 1.17.4

En la versión 1.17.4 del Container Toolkit, el montaje de bibliotecas compatibles con CUDA ahora está deshabilitado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, asegúrese de actualizar su LD_LIBRARY_PATH para incluir las bibliotecas de compatibilidad con CUDA, tal y como se muestra en el tutorial sobre si utiliza una capa de compatibilidad CUDA.

Política de Support

Estos AMIs componentes de esta AMI, como las versiones de CUDA, pueden eliminarse y modificarse en función de la política de soporte del marco o para optimizar el rendimiento de los contenedores de aprendizaje profundo o para reducir el tamaño de la AMI en una versión futura, sin previo aviso. Eliminamos las versiones de CUDA AMIs si no se utilizan en ninguna versión de marco compatible.

Instancias P6-B200

Las instancias P6-B200 contienen 8 tarjetas de interfaz de red y se pueden iniciar mediante el siguiente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instancias P5en

Las instancias P5en contienen 16 tarjetas de interfaz de red y se pueden lanzar mediante el siguiente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instancias P5/P5e

Las instancias P5 y P5e contienen 32 tarjetas de interfaz de red y se pueden lanzar mediante el siguiente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • La versión del núcleo se fija mediante el comando:

    sudo dnf versionlock kernel*
  • Recomendamos a los usuarios que eviten actualizar su versión del núcleo (a menos que sea debido a un parche de seguridad) para garantizar la compatibilidad con los controladores y las versiones de los paquetes instalados. Si los usuarios aún desean actualizar, pueden ejecutar los siguientes comandos para desfijar sus versiones del núcleo:

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • Para cada nueva versión de DLAMI, se utiliza el último núcleo compatible disponible.

Fecha de lanzamiento: 15 de mayo de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250515

Added

Actualizado

  • Se actualizó el instalador de EFA de la versión 1.38.1 a la 1.40.0

  • Se actualizó GDRCopy de la versión 2.4 a la 2.5

  • Se actualizó el complemento AWS OFI NCCL de la versión 1.13.0-aws a la 1.14.2-aws

  • Se actualizó la versión NCCL compilada de la versión 2.25.1 a la 2.26.5

  • Se actualizó la versión CUDA predeterminada de la versión 12.6 a la 12.8

  • Se actualizó la versión DCGM de Nvidia de 3.3.9 a 4.4.3

Fecha de lanzamiento: 22 de abril de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250421

Actualizado

Fecha de lanzamiento: 31 de marzo de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250328

Added

Fecha de lanzamiento: 17/02/2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250215

Actualizado

Eliminaciones

Fecha de lanzamiento: 05 de febrero de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250205

Added

  • Se agregó la versión 12.6 del kit de herramientas CUDA en el directorio/-12.6 usr/local/cuda

  • Se agregó soporte para instancias G5 EC2

Eliminaciones

  • Las versiones 12.1 y 12.2 de CUDA se han eliminado de esta DLAMI. Los clientes que necesiten estas versiones del kit de herramientas CUDA pueden instalarlas directamente desde NVIDIA mediante el siguiente enlace

Fecha de lanzamiento: 03 de febrero de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250131

Actualizado

  • Se actualizó la versión EFA de 1.37.0 a 1.38.0

    • EFA ahora incluye el complemento AWS OFI NCCL, que ahora se encuentra en/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si va a actualizar la variable LD_LIBRARY_PATH, asegúrese de modificar correctamente la ubicación de su OFI NCCL.

  • Se actualizó el kit de herramientas Nvidia Container de la versión 1.17.3 a la 1.17.4

Fecha de lanzamiento: 08/01/2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250107

Actualizado

Fecha de lanzamiento: 9 de diciembre de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241206

Actualizado

  • Se actualizó el kit de herramientas Nvidia Container de la versión 1.17.0 a la 1.17.3

Fecha de lanzamiento: 21 de noviembre de 2021

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241121

Added

  • Se agregó soporte para las instancias P5en. EC2

Actualizado

  • Se actualizó el instalador de EFA de la versión 1.35.0 a la 1.37.0

  • Actualice el complemento AWS OFI NCCL de la versión 1.121-aws a la 1.13.0-aws

Fecha de lanzamiento: 2024-10-30

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20241030

Added

  • Versión inicial de la base de aprendizaje profundo OSS DLAMI para Amazon Linux 2023

Problemas conocidos

  • Esta DLAMI no admite instancias G4dn y EC2 G5 en este momento. AWS tiene conocimiento de una incompatibilidad que puede provocar errores en la inicialización de CUDA, lo que afecta a las familias de instancias G4dn y G5 cuando se utilizan los controladores NVIDIA de código abierto junto con un núcleo de Linux de versión 6.1 o posterior. Este problema afecta a distribuciones de Linux como Amazon Linux 2023, Ubuntu 22.04 o posterior, o SUSE Linux Enterprise Server 15 SP6 o posterior, entre otras.