AWS AMI de GPU de base de aprendizaje profundo (Ubuntu 22.04)

Si necesita ayuda para empezar, consulteIntroducción a las DLAMI.

Formato de nombre AMI

Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 22.04) $ {YYY-MM-DD}

EC2 Instancias compatibles

Consulte Cambios importantes en la DLAMI.
El controlador Nvidia de aprendizaje profundo con OSS es compatible con G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P6-B200.

La AMI incluye lo siguiente:

AWS Servicio compatible: Amazon EC2
Sistema operativo: Ubuntu 22.04
Arquitectura de cómputo: x86
La última versión disponible está instalada para los siguientes paquetes:
- Núcleo de Linux: 6. 8
- FSx Lustre
- Docker
- AWS CLI v2 en/usr/local/bin/aws2 y AWS CLI v1 en/usr/bin/aws
- NVIDIA DCGM
- Kit de herramientas de contenedores Nvidia:
  - Comando de versión: -V nvidia-container-cli
- Nvidia-Docker2:
  - Comando de versión: versión nvidia-docker
Controlador NVIDIA: 570.172.08
Pila NVIDIA CUDA 12.4-12.6 y 12.8:
- Directorios de instalación de CUDA, NCCL y CUDDN:/-xx.x/ usr/local/cuda
  - Ejemplo:/-12.8/ usr/local/cuda-12.8/ , /usr/local/cuda
- Versión NCCL compilada: 2.26.5
- CUDA predeterminado: 12.8
  - PATH/usr/local/cudaapunta a CUDA 12.8
  - Se actualizaron las siguientes variables de entorno:
    
    LD_LIBRARY_PATH tendrá/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/x86_64-linux/lib:/usr/local/cuda-12.8/extras/CUPTI/lib
    PATH para tener//usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include
    Para cualquier versión de CUDA diferente, actualice LD_LIBRARY_PATH en consecuencia.
Instalador de EFA: 1.43.1
Nvidia: 2.5.1 GDRCopy
AWS El complemento OFI NCCL viene con el instalador EFA
- Las rutas/se opt/amazon/ofi-nccl/lib/x86_64-linux-gnu and /opt/amazon/ofi-nccl/efa añaden a LD_LIBRARY_PATH.
AWS CLI v2 en/2 y v1 en/usr/local/bin/aws AWS CLI usr/bin/aws
Tipo de volumen de EBS: gp3
Python:/usr/bin/python3.10
NVMe Ubicación del almacén de instancias (en las EC2 instancias compatibles):/opt/dlami/nvme

Consulte el AMI-ID con el parámetro SSM (la región de ejemplo es us-east-1):

Controlador OSS Nvidia:


SSM_PARAMETER=base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \
    aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/$SSM_PARAMETER  \
    --query "Parameter.Value" \
    --output text

Consulta el AMI-ID con AWSCLI (por ejemplo, la región es us-east-1):

Controlador OSS Nvidia:


aws ec2 describe-images --region us-east-1 \
      --owners amazon \
      --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \
      --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
      --output text

Avisos

Kit de herramientas de contenedores NVIDIA 1.17.4

En la versión 1.17.4 del Container Toolkit, el montaje de bibliotecas compatibles con CUDA ahora está deshabilitado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, asegúrese de actualizar su LD_LIBRARY_PATH para incluir las bibliotecas de compatibilidad con CUDA, tal y como se muestra en el tutorial sobre si utiliza una capa de compatibilidad CUDA.

La EFA se actualiza de la versión 1.37 a la 1.38 (publicada el 31 de enero de 2020)

EFA ahora incluye el complemento AWS OFI NCCL, que ahora se encuentra en/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si va a actualizar la variable LD_LIBRARY_PATH, asegúrese de modificar correctamente la ubicación de su OFI NCCL.

Soporte para múltiples ENI

Ubuntu 22.04 instala y configura automáticamente el enrutamiento de origen en múltiples unidades NICss mediante cloud-init en su arranque inicial. Si su flujo de trabajo lo incluye attaching/detaching ENIs mientras una instancia está detenida, debe agregarse una configuración adicional a los datos de usuario de cloud-init para garantizar la correcta configuración de las NIC durante estos eventos. A continuación, se proporciona un ejemplo de la configuración de la nube.
Consulta esta documentación de Canonical aquí para obtener más información sobre cómo configurar la configuración de la nube para tus instancias: -/https://documentation.ubuntu.com/aws/en/latest/aws-how-to/instances/automaticallysetup-multiple-nics


#cloud-config
# apply network config on every boot and hotplug event
updates:
  network:
    when: ['boot', 'hotplug']

Política de Support

Estos AMIs componentes de esta AMI, como las versiones de CUDA, pueden eliminarse y modificarse en función de la política de soporte del marco o para optimizar el rendimiento de los contenedores de aprendizaje profundo o para reducir el tamaño de la AMI en una versión futura, sin previo aviso. Eliminamos las versiones de CUDA AMIs si no se utilizan en ninguna versión de marco compatible.

EC2 instancias con varias tarjetas de red

Muchos tipos de instancias que admiten EFA también tienen varias tarjetas de red.
DeviceIndex es único para cada tarjeta de red y debe ser un número entero no negativo inferior al límite de ENIs per. NetworkCard En P5, el número de ENIs per NetworkCard es 2, lo que significa que los únicos valores válidos DeviceIndex son 0 o 1.
- Para la interfaz de red principal (índice de tarjeta de red 0, índice de dispositivo 0), cree una interfaz EFA (EFA con ENA). No puede utilizar una interfaz de red exclusiva para EFA como interfaz de red principal.
- Para cada interfaz de red adicional, utilice el siguiente índice de tarjetas de red no utilizado, el índice de dispositivos 1, y una interfaz de red EFA (EFA con ENA) o solo EFA, según el caso de uso, como los requisitos de ancho de banda de la ENA o el espacio de direcciones IP. Para ver ejemplos de casos de uso, consulte Configuración de EFA para instancias P5.
- Para obtener más información, consulte la Guía de EFA aquí.

Instancias P6-B200

Las P6-B200 contienen 8 tarjetas de interfaz de red y se pueden iniciar mediante el siguiente comando: AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=5,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=6,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Instancias P5en

Las P5en contienen 16 tarjetas de interfaz de red y se pueden iniciar mediante el siguiente comando: AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     ....
     "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Instancias P5/P5e

Las instancias P5 y P5e contienen 32 tarjetas de interfaz de red y se pueden lanzar mediante el siguiente comando: AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
     ...
     "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Kernel

La versión del núcleo se fija mediante el comando:


echo linux-aws hold | sudo dpkg —set-selections
echo linux-headers-aws hold | sudo dpkg —set-selections
echo linux-image-aws hold | sudo dpkg —set-selections

Recomendamos a los usuarios que eviten actualizar su versión del núcleo (a menos que sea debido a un parche de seguridad) para garantizar la compatibilidad con los controladores y las versiones de los paquetes instalados. Si los usuarios aún desean actualizar, pueden ejecutar los siguientes comandos para desfijar sus versiones del núcleo:
```
echo linux-aws install | sudo dpkg -set-selections
echo linux-headers-aws install | sudo dpkg -set-selections
echo linux-image-aws install | sudo dpkg -set-selections
```
Para cada nueva versión de DLAMI, se utiliza el último núcleo compatible disponible.

Fecha de lanzamiento: 22 de julio de 2020

Nombre de AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250722

Actualizado

Se actualizó el controlador Nvidia de 570.158.01 a 570.172.08 para corregir el problema de CVE que aparecía en el boletín de seguridad de Nvidia de julio

Fecha de lanzamiento: 16 de mayo de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250516

Added

Se agregó soporte para instancias P6-B200 EC2

Actualizado

Se actualizó el instalador de EFA de la versión 1.39.0 a la 1.40.0
Actualice el complemento AWS OFI NCCL de la versión 1.13.0-aws a la 1.14.2-aws
Se actualizó la versión NCCL compilada de la versión 2.22.3 a la 2.26.5
Se actualizó la versión CUDA predeterminada de la versión 12.6 a la 12.8
Se actualizó la versión DCGM de Nvidia de 3.3.9 a 4.4.3

Fecha de lanzamiento: 05/05/2020

Nombre de AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503

Actualizado

Se actualizó de 2.4.1 GDRCopy a 2.5.1

Fecha de lanzamiento: 24 de abril de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250424

Actualizado

Se actualizó el controlador Nvidia de la versión 570.124.06 a la 570.133.20 para cumplir con lo indicado en el boletín de seguridad del controlador de pantalla de GPU de NVIDIA de CVEs abril de 2025

Fecha de lanzamiento: 17 de febrero de 2021

Nombre de AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250214

Actualizado

Se actualizó el NVIDIA Container Toolkit de la versión 1.17.3 a la versión 1.17.4
- Consulte la página de notas de la versión aquí para obtener más información:/1.17.4 https://github.com/NVIDIA/ nvidia-container-toolkit releases/tag/v
- En la versión 1.17.4 del Container Toolkit, el montaje de bibliotecas compatibles con CUDA ahora está deshabilitado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, asegúrese de actualizar su LD_LIBRARY_PATH para incluir las bibliotecas de compatibilidad con CUDA, tal y como se muestra en el tutorial sobre si utiliza una capa de compatibilidad CUDA.

Eliminaciones

Se eliminaron las bibliotecas de espacio de usuario cuobj y nvdisasm proporcionadas por el kit de herramientas CUDA de NVIDIA para abordar las presentes en el boletín de seguridad del kit de herramientas NVIDIA CUDA del 18 de febrero de 2025 CVEs

Fecha de lanzamiento: 07/02/2020

Nombre de AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250205

Added

Se agregó la versión 12.6 del kit de herramientas CUDA en el directorio/-12.6 usr/local/cuda

Eliminaciones

Las versiones 12.1 y 12.2 de CUDA se han eliminado de esta DLAMI. Los clientes pueden instalar estas versiones desde NVIDIA mediante el siguiente enlace
- https://developer.nvidia.com/cuda-toolkit-archive

Fecha de lanzamiento: 31 de enero de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250131

Actualizado

Se actualizó la versión EFA de 1.37.0 a 1.38.0
- EFA ahora incluye el complemento AWS OFI NCCL, que ahora se encuentra en/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si va a actualizar la variable LD_LIBRARY_PATH, asegúrese de modificar correctamente la ubicación de su OFI NCCL.
Se actualizó el kit de herramientas Nvidia Container de la versión 1.17.3 a la 1.17.4

Fecha de lanzamiento: 17 de enero de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250117

Actualizado

Se actualizó el controlador Nvidia de la versión 550.127.05 a la 550.144.03 para cumplir con lo indicado en el boletín de seguridad del controlador de pantalla de GPU de CVEs NVIDIA de enero de 2025

Fecha de lanzamiento: 18 de noviembre de 2021

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241115

Added

Se ha añadido el FSx paquete Amazon para el soporte de Lustre.

Fixed

Debido a un cambio en el kernel de Ubuntu para corregir un defecto en la funcionalidad de aleatorización del diseño del espacio de direcciones del núcleo (KASLR), las instancias G4Dn/G5 no pueden inicializar CUDA correctamente en el controlador OSS Nvidia. Para mitigar este problema, esta DLAMI incluye una funcionalidad que carga dinámicamente el controlador propietario para las instancias G4Dn y G5. Espere un breve período de inicialización para esta carga a fin de garantizar que sus instancias puedan funcionar correctamente.

Para comprobar el estado y el estado de este servicio, puedes usar el siguiente comando:


sudo systemctl is-active dynamic_driver_load.service
active

Fecha de lanzamiento: 23 de octubre de 2022

Nombre de AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241023

Actualizado

Se actualizó el controlador Nvidia de la versión 550.90.07 a la 550.127.05 para adaptarlo a lo indicado en el boletín de seguridad de las pantallas de GPU de NVIDIA de octubre de CVEs 2024

Fecha de lanzamiento: 01/10/2020

Nombre de AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240930

Actualizado

Se actualizaron el controlador Nvidia y Fabric Manager de la versión 535.183.01 a la 550.90.07
Se actualizó el kit de herramientas Nvidia Container Toolkit de la versión 1.16.1 a la 1.16.2 para corregir la vulnerabilidad de seguridad CVE-2024-0133.
Se actualizó la versión EFA de la 1.32.0 a la 1.34.0
Se actualizó el NCCL a la última versión 2.22.3 para todas las versiones de CUDA
- CUDA 12.1 y 12.2 se actualizaron desde la versión 2.18.5+ 2 CUDA12
- CUDA 12.3 se actualizó desde la versión 2.21.5+. CUDA12

Added

Se agregó la versión 12.4 del kit de herramientas CUDA en el directorio/-12.4 usr/local/cuda
Se agregó soporte para instancias P5e. EC2

Fecha de lanzamiento: 19 de agosto de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240816

Added

Se agregó soporte para la instancia G6e. EC2

Fecha de lanzamiento: 06-06-20

Nombre de AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240606

Actualizado

Se actualizó la versión del controlador Nvidia a 535.183.01 desde 535.161.08

Fecha de lanzamiento: 15 de mayo de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240513

Eliminaciones

En esta versión se ha eliminado la compatibilidad con Amazon FSx for Lustre debido a una incompatibilidad con las versiones más recientes del núcleo de Ubuntu 22.04. Support FSx for Lustre se restablecerá una vez que se soporte la última versión del núcleo. Los clientes que necesiten FSx Lustre deben seguir utilizando la AMI de GPU Deep Learning Base (Ubuntu 20.04).

Fecha de lanzamiento: 29 de abril de 2020

Nombre de AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240429

Added

Versión inicial de la DLAMI OSS DLAMI de Deep Learning Base para Ubuntu 22.04

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

AMI de GPU básica (Ubuntu 24.04)

AMI de GPU básica (Amazon Linux 2)

AWS AMI de GPU de base de aprendizaje profundo (Ubuntu 22.04)

Formato de nombre AMI

EC2 Instancias compatibles

La AMI incluye lo siguiente:

​Avisos

Soporte para múltiples ENI

EC2 instancias con varias tarjetas de red

Instancias P6-B200

Instancias P5en

Instancias P5/P5e

Kernel

Fecha de lanzamiento: 22 de julio de 2020

Actualizado

Fecha de lanzamiento: 16 de mayo de 2020

Added

Actualizado

Fecha de lanzamiento: 05/05/2020

Actualizado

Fecha de lanzamiento: 24 de abril de 2020

Actualizado

Fecha de lanzamiento: 17 de febrero de 2021

Actualizado

Eliminaciones

Fecha de lanzamiento: 07/02/2020

Added

Eliminaciones

Fecha de lanzamiento: 31 de enero de 2020

Actualizado

Fecha de lanzamiento: 17 de enero de 2020

Actualizado

Fecha de lanzamiento: 18 de noviembre de 2021

Added

Fixed

Fecha de lanzamiento: 23 de octubre de 2022

Actualizado

Fecha de lanzamiento: 01/10/2020

Actualizado

Added

Fecha de lanzamiento: 19 de agosto de 2020

Added

Fecha de lanzamiento: 06-06-20

Actualizado

Fecha de lanzamiento: 15 de mayo de 2020

Eliminaciones

Fecha de lanzamiento: 29 de abril de 2020

Added

Avisos