AWS AMI de GPU de ARM64 base de aprendizaje profundo (Amazon Linux 2023) - AWS Deep Learning AMIs

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS AMI de GPU de ARM64 base de aprendizaje profundo (Amazon Linux 2023)

Si necesita ayuda para empezar, consulteIntroducción a las DLAMI.

Formato de nombre AMI

  • Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) $ {YYY-MM-DD}

EC2 Instancias compatibles

  • G5g, P6e- GB2 00 (el P6e- 00 admite CUDA>=12.8) GB2

La AMI incluye lo siguiente:

  • AWS Servicio compatible: Amazon EC2

  • Sistema operativo: Amazon Linux 2023

  • Arquitectura informática: ARM64

  • La última versión disponible está instalada para los siguientes paquetes:

    • Núcleo de Linux: 6. 12

    • FSx Lustre

    • Docker

    • AWS CLI v2 en/usr/bin/aws

    • NVIDIA DCGM

    • Kit de herramientas de contenedores Nvidia:

      • Comando de versión: -V nvidia-container-cli

    • Nvidia-Docker2:

      • Comando de versión: versión nvidia-docker

  • Controlador NVIDIA: 570.158.01

  • Pila NVIDIA CUDA 12.4, 12.5, 12.6, 12.8:

    • Directorios de instalación de CUDA, NCCL y CUDDN:/-xx.x/ usr/local/cuda

      • Ejemplo:/-12.8/ usr/local/cuda-12.8/ , /usr/local/cuda

    • Versión NCCL compilada:

      • Para el directorio CUDA de 12.4, compiló la versión 2.22.3+ .4 de NCCL. CUDA12

      • Para el directorio CUDA de 12.5, compiló la versión 2.22.3+ .5 de NCCL CUDA12

      • Para el directorio CUDA de 12.6, compiló la versión 2.24.3+ .6 de NCCL CUDA12

      • Para el directorio CUDA de 12.8, compiló la versión 2.27.5+ .8 de NCCL CUDA12

    • CUDA predeterminado: 12.8

      • PATH/usr/local/cudaapunta a CUDA 12.8

      • Se actualizaron las siguientes variables de entorno:

        • LD_LIBRARY_PATH tendrá/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib

        • PATH para tener//usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include

        • Para cualquier versión de CUDA diferente, actualice LD_LIBRARY_PATH en consecuencia.

  • Instalador de EFA: 1.42.0

  • Nvidia: 2.5.1 GDRCopy

  • AWS El complemento OFI NCCL viene con el instalador EFA

    • Las rutas/se opt/amazon/ofi-nccl/lib and /opt/amazon/ofi-nccl/efa añaden a LD_LIBRARY_PATH.

  • AWS CLI v2 en/usr/local/bin/aws

  • Tipo de volumen de EBS: gp3

  • Python:/usr/bin/python3.9

  • Consulte el AMI-ID con el parámetro SSM (la región de ejemplo es us-east-1):

    SSM_PARAMETER=base-oss-nvidia-driver-gpu-amazon-linux-2023/latest/ami-id \ aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/arm64/$SSM_PARAMETER \ --query "Parameter.Value" \ --output text
  • Consulta el AMI-ID con AWSCLI (la región de ejemplo es us-east-1):

    aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
Instancias P6e- 00 GB2

Las instancias GB2 P6e-00 contienen 17 tarjetas de interfaz de red y se pueden lanzar mediante el siguiente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces \ "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=interface" \ "NetworkCardIndex=1,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=2,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=3,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=4,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=5,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=6,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=7,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=8,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=9,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=10,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=11,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=12,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=13,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=14,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=15,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=16,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only"

​Avisos

Kit de herramientas NVIDIA Container 1.17.4

En la versión 1.17.4 del Container Toolkit, el montaje de bibliotecas compatibles con CUDA ahora está deshabilitado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, asegúrese de actualizar su LD_LIBRARY_PATH para incluir las bibliotecas de compatibilidad con CUDA, tal y como se muestra en el tutorial sobre si utiliza una capa de compatibilidad CUDA.

Política de Support

Estos AMIs componentes de esta AMI, como las versiones de CUDA, pueden eliminarse y modificarse en función de la política de soporte del marco o para optimizar el rendimiento de los contenedores de aprendizaje profundo o para reducir el tamaño de la AMI en una versión futura, sin previo aviso. Eliminamos las versiones de CUDA AMIs si no se utilizan en ninguna versión de marco compatible.

Kernel
  • La versión del núcleo se fija mediante el comando:

    sudo dnf versionlock kernel*
  • Recomendamos a los usuarios que eviten actualizar su versión del núcleo (a menos que sea debido a un parche de seguridad) para garantizar la compatibilidad con los controladores y las versiones de los paquetes instalados. Si los usuarios aún desean actualizar, pueden ejecutar los siguientes comandos para desfijar sus versiones del núcleo:

    sudo dnf versionlock delete kernel* sudo dnf update -y
  • Para cada nueva versión de DLAMI, se utiliza el último núcleo compatible disponible.

Fecha de lanzamiento: 4 de julio de 2020

Nombre de la AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250704

Actualizado

  • Se agregó soporte a la EC2 instancia P6e- 00. GB2 Tenga en cuenta que CUDA>=12.8 es compatible con la P6e-00 GB2

  • Añada EFA 1.42.0

  • Se actualizó el controlador Nvidia de la versión 570.133.20 a la 570.158.01

  • Se actualizó la pila CUDA 12.8 con NCCL 2.27.5

Fecha de lanzamiento: 24 de abril de 2020

Nombre de la AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250424

Actualizado

Fecha de lanzamiento: 22 de abril de 2020

Nombre de la AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250421

Actualizado

Fecha de lanzamiento: 4 de abril de 2020

Nombre de la AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250404

Actualizado

  • Versión del núcleo actualizada de 6.1 a 6.12

Fecha de lanzamiento: 03-03-2020

Nombre de la AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250303

Actualizado

  • Controlador Nvidia de 550.144.03 a 570.86.15

  • El CUDA predeterminado se cambia de .4 a .6. CUDA12 CUDA12

Added

  • Directorio CUDA de 12.5 con NCCL compilado versión CUDA12 2.22.3+ .5 y cuDNN 9.7.1.26

  • Directorio CUDA de 12.6 con NCCL compilado versión CUDA12 2.24.3+ .6 y cuDNN 9.7.1.26

  • Directorio CUDA de 12.8 con NCCL compilado versión CUDA12 2.25.1+ .8 y cuDNN 9.7.1.26

Fecha de lanzamiento: 14 de febrero de 2020

Nombre de la AMI: Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2023) 20250214

Added

  • Versión inicial de la ARM64 base de aprendizaje profundo OSS DLAMI para Amazon Linux 2023