AMI de base de aprendizaje profundo de AWS - GPU (Ubuntu 20.04)
Notificación del fin del soporte
Ubuntu Linux 20.04 LTS va a finalizar su período de cinco años de LTS el 31 de mayo de 2025 y su proveedor ya no lo admite. En consecuencia, la AMI de base de aprendizaje profundo de AWS - GPU (Ubuntu 20.04) no recibirá actualizaciones después del 31 de mayo de 2025. Las versiones anteriores seguirán estando disponibles. Tenga en cuenta que cualquier AMI que se publique quedará obsoleta en EC2 después de 2 años desde su fecha de creación. Consulte Cómo retirar una AMI de Amazon EC2 para obtener más información.
Durante 3 meses, hasta el 31 de agosto de 2025, solo se proporcionará soporte para problemas de funcionalidad (no para parches de seguridad).
Los usuarios de la DLAMI con Ubuntu 20.04 deben pasarse a la AMI de base de aprendizaje profundo de AWS - GPU (Ubuntu 22.04)
o a la AMI de base de aprendizaje profundo de AWS - GPU (Ubuntu 24.04) . Como alternativa, también se puede utilizar la AMI de base de aprendizaje profundo de AWS (Amazon Linux 2023) .
Para obtener ayuda para comenzar, consulte Introducción a las DLAMI.
Formato del nombre de AMI
AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) ${YYYY-MM-DD}
AMI de base de aprendizaje profundo del controlador propietario Nvidia - GPU (Ubuntu 20.04) ${YYYY-MM-DD}
Instancias de EC2 admitidas
Consulte el documento de cambios importantes en la DLAMI.
El aprendizaje profundo con el controlador con software de código abierto de Nvidia admite G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e y P5en.
El aprendizaje profundo con el controlador propietario de Nvidia admite G3 (no admite G3.16x), P3 y P3dn.
La AMI incluye lo siguiente:
Servicio de AWS compatible: Amazon EC2
Sistema operativo: Ubuntu 20.04
Arquitectura de cómputo: x86
La última versión disponible está instalada para los siguientes paquetes:
Kernel de Linux 5.15
FSx Lustre
Docker
AWS CLI v2 en /usr/local/bin/aws2 y AWS CLI v1 en /usr/bin/aws
DCGM de NVIDIA
Kit de herramientas de contenedor de NVIDIA:
Comando de versión: nvidia-container-cli -V
Nvidia-Docker2:
Comando de versión: versión nvidia-docker
Controlador de NVIDIA:
Controlador con software de código abierto de NVIDIA: 550.163.01
Controlador propietario Nvidia: 550.163.01
Pila NVIDIA CUDA 11.7, 12.1-12.4:
Directorios de instalación de CUDA, NCCL y cuDDN: /usr/local/cuda-xx.x/
Ejemplo: /usr/local/cuda-12.1/
Versión de NCCL compilada: 2.22.3+CUDA12.4
CUDA predeterminado: 12.1
PATH /usr/local/cuda apunta a CUDA 12.1
Se han actualizado las siguientes variables de entorno:
LD_LIBRARY_PATH para tener /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PATH para tener /usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/
Para cualquier versión de CUDA diferente, actualice LD_LIBRARY_PATH como sea necesario.
Ubicación de las pruebas de NCCL:
all_reduce, all_gather y reduce_scatter: /usr/local/cuda-xx.x/efa/test-cuda-xx.x/
Para ejecutar las pruebas de NCCL, LD_LIBRARY_PATH debe pasar las siguientes actualizaciones.
Los PATH comunes ya están agregados a LD_LIBRARY_PATH:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
Para cualquier versión de CUDA diferente, actualice LD_LIBRARY_PATH como sea necesario.
Instalador de EFA: 1.39.0
Nvidia GDRCopy: 2.4
complemento OFI NCCL de AWS: se instala como parte del instalador de EFA-aws
OFI NCCL de AWS ahora admite múltiples versiones de NCCL con una sola versión
Ruta de instalación: /opt/aws-ofi-nccl/. La ruta /opt/aws-ofi-nccl/lib se ha añadido a LD_LIBRARY_PATH.
Ruta de las pruebas de llamada, message_transfer: /opt/aws-ofi-nccl/tests
Tipo de volumen EBS: gp3
Python: /usr/bin/python3.9
Ubicación del almacén de instancias de NVMe (en instancias EC2 compatibles): /opt/dlami/nvme
AMI-ID de la consulta con el parámetro SSM (la región de ejemplo es us-east-1):
Controlador con software de código abierto de NVIDIA:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output textControlador propietario Nvidia:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
AMI-ID de la consulta con AWSCLI (la región de ejemplo es us-east-1):
Controlador con software de código abierto de NVIDIA:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output textControlador propietario Nvidia:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Avisos
Kit de herramientas de contenedor de NVIDIA 1.17.4
En la versión 1.17.4 del kit de herramientas de contenedores, el montaje de bibliotecas de compatibilidad con CUDA se ha desactivado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, asegúrese de actualizar su LD_LIBRARY_PATH para incluir las bibliotecas de compatibilidad con CUDA, tal y como se muestra en el tutorial Si utiliza una capa de compatibilidad CUDA.
La EFA se actualiza de la versión 1.37 a la 1.38 (publicada el 04/02/2025)
EFA ahora incluye el complemento OFI NCCL de AWS, que ahora se encuentra en /opt/amazon/ofi-nccl en lugar del /opt/aws-ofi-nccl/original. Si va a actualizar la variable LD_LIBRARY_PATH, asegúrese de modificar correctamente la ubicación de OFI NCCL.
Política de soporte
Los componentes de esta AMI, como por ejemplo las versiones de CUDA, se pueden eliminar y cambiar según la política de compatibilidad del marco, para optimizar el rendimiento de los contenedores de aprendizaje profundo
Instancias EC2 con varias tarjetas de red
Muchos tipos de instancias que admiten EFA también tienen varias tarjetas de red.
DeviceIndex es único para cada NetworkCard y debe ser un número entero no negativo inferior al límite de ENI por NetworkCard. En P5, el número de ENI por NetworkCard es de 2, lo que significa que los únicos valores válidos para DeviceIndex son 0 o 1.
Para la interfaz de red principal (índice de tarjetas de red 0, índice de dispositivos 0), cree una interfaz de EFA (EFA con ENA). No puede utilizar una interfaz de red exclusiva para EFA como interfaz de red principal.
Para cada interfaz de red adicional, use el siguiente índice de tarjetas de red no utilizado, el índice de dispositivos 1 y una interfaz de red de EFA (EFA con ENA) o solo EFA, según el caso de uso, como los requisitos de ancho de banda de ENA o el espacio de direcciones IP. Para ver un ejemplo de caso de uso, consulte Configuración de EFA para instancias P5.
Para obtener más información, consulte la Guía de usuario de EFA aquí.
Instancias P5/P5e
Las instancias P5 y P5e contienen 32 tarjetas de interfaz de red y se pueden lanzar con el siguiente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instancias P5en
Las instancias P5en contienen 16 tarjetas de interfaz de red y se pueden lanzar con el siguiente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
La versión del kernel se ancla mediante el comando:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selectionsRecomendamos a los usuarios que eviten actualizar su versión de kernel (a menos que sea debido a un parche de seguridad) para garantizar la compatibilidad con los controladores y las versiones de los paquetes instalados. Si aún así desean hacerlo, pueden ejecutar los siguientes comandos para desanclar sus versiones de kernel:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selectionsPara cada nueva versión de DLAMI, se utiliza el último kernel compatible disponible.
Fecha de la versión: 24/04/2025
Nombres de AMI
AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20250424
AMI de base de aprendizaje profundo del controlador propietario de Nvidia - GPU (Ubuntu 20.04) 20250424
Actualizado
Se ha actualizado el controlador de Nvidia de la versión 550.144.03 a la 550.163.01 para corregir los CVE, tal como aparecen en el boletín de seguridad de los controladores de pantalla de GPU de NVIDIA de abril de 2025
.
Fecha de la versión: 17/02/2025
Nombres de AMI
AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20250214
AMI de base de aprendizaje profundo del controlador propietario de Nvidia - GPU (Ubuntu 20.04) 20250214
Actualizado
Se ha actualizado el kit de herramientas de contenedores de NVIDIA de la versión 1.17.3 a la versión 1.17.4.
Consulte la página de notas de la versión aquí para obtener más información: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
En la versión 1.17.4 del kit de herramientas de contenedores, el montaje de bibliotecas de compatibilidad con CUDA se ha desactivado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, asegúrese de actualizar su LD_LIBRARY_PATH para incluir las bibliotecas de compatibilidad con CUDA, tal y como se muestra en el tutorial Si utiliza una capa de compatibilidad CUDA.
Eliminaciones
Se han eliminado las bibliotecas de espacio de usuario cuobj y nvdisasm proporcionadas por el kit de herramientas de CUDA de NVIDIA
para corregir los CVE, tal como aparecen en el boletín de seguridad del kit de herramientas de CUDA de NVIDIA del 18 de febrero de 2025 .
Fecha de la versión: 2025-02-04
Nombres de AMI
AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20250204
AMI de base de aprendizaje profundo del controlador propietario de Nvidia - GPU (Ubuntu 20.04) 20250204
Actualizado
Se ha actualizado EFA de la versión 1.37.0 a la 1.38.0.
EFA ahora incluye el complemento OFI NCCL de AWS, que ahora se encuentra en /opt/amazon/ofi-nccl en lugar del /opt/aws-ofi-nccl/original. Si va a actualizar la variable LD_LIBRARY_PATH, asegúrese de modificar correctamente la ubicación de OFI NCCL.
Eliminaciones
Se ha eliminado el paquete emacs de estas DLAMI. Los clientes pueden instalar emacs desde GNU emacs https://www.gnu.org/software/emacs/download.html
.
Fecha de la versión: 2025-01-17
Nombres de AMI
AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20250117
AMI de base de aprendizaje profundo del controlador propietario de Nvidia - GPU (Ubuntu 20.04) 20250117
Actualizado
Se ha actualizado el controlador de Nvidia de la versión 550.127.05 a la 550.144.03 para corregir los CVE, tal como aparecen en el boletín de seguridad de los controladores de pantalla de GPU de NVIDIA de enero de 2025
.
Fecha de la versión: 2024-12-09
Nombres de AMI
AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20241206
AMI de base de aprendizaje profundo del controlador propietario de Nvidia - GPU (Ubuntu 20.04) 20241206
Actualizado
Se ha actualizado el kit de herramientas de contenedores de Nvidia de la versión 1.17.0 a la versión 1.17.3.
Fecha de la versión: 22/11/2024
Nombre de AMI: AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20241122
Se agregó
Se ha añadido compatibilidad para las instancias P5en EC2.
Actualizado
Se ha actualizado el instalador de EFA de la versión 1.35.0 a la 1.37.0.
Se ha actualizado el complemento OFI NCCL de AWS de la versión 1.12.1-aws a la versión 1.13.0-aws.
Fecha de la versión: 26/10/2024
Nombres de AMI
AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20241025
AMI de base de aprendizaje profundo del controlador propietario de Nvidia - GPU (Ubuntu 20.04) 20241025
Actualizado
Se ha actualizado el controlador de Nvidia de la versión 550.90.07 a la 550.127.05 para corregir los CVE, tal como aparecen en el boletín de seguridad de pantalla de GPU de NVIDIA de octubre de 2024
.
Fecha de la versión: 03/10/2024
Nombre de AMI: AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20240927
Actualizado
Se ha actualizado el kit de herramientas de contenedores de Nvidia de la versión 1.16.1 a la versión 1.16.2.
Fecha de la versión: 27/08/2024
Nombre de AMI: AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20240827
Actualizado
Se han actualizado el controlador Nvidia y Fabric Manager de la versión 535.183.01 a la 550.90.07.
Se ha actualizado EFA de la versión 1.32.0 a la 1.34.0.
Se ha actualizado el NCCL a la última versión 2.22.3 para todas las versiones de CUDA.
CUDA 11.7 se ha actualizado desde la versión 2.16.2+CUDA11.7
Las versiones de CUDA 12.1 y 12.2 se han actualizado desde la versión 2.18.5+CUDA12.2
CUDA 12.3 se ha actualizado desde la versión 2.21.5+CUDA12.4
Se agregó
Se ha añadido la versión 12.4 del kit de herramientas de CUDA en el directorio /usr/local/cuda-12.4
Se ha añadido compatibilidad para instancias P5e EC2.
Eliminaciones
Se ha eliminado la pila de la versión 11.8 del kit de herramientas de CUDA presente en el directorio /usr/local/cuda-11.8
Fecha de la versión: 19/08/2024
Nombre de AMI: AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20240816
Se agregó
Se ha agregado compatibilidad para la instancia EC2 G6e
.
Fecha de la versión: 2024-06-06
Nombres de AMI
AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20240606
AMI de base de aprendizaje profundo del controlador propietario de Nvidia - GPU (Ubuntu 20.04) 20240606
Actualizado
Se ha actualizado la versión del controlador Nvidia de la 535.183.01 a la 535.161.08.
Fecha de la versión: 2024-05-15
Nombres de AMI
AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20240515
AMI de base de aprendizaje profundo del controlador propietario de Nvidia - GPU (Ubuntu 20.04) 20240515
Se agregó
Se ha vuelto a añadir la pila CUDA11.7 en el directorio /usr/local/cuda-11.7 con CUDA11.7, NCCL 2.16.2 y cuDNN 8.7.0, ya que PyTorch 1.13 es compatible con CUDA11.7.
Fecha de la versión: 2024-05-02
Nombres de AMI
AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20240502
AMI de base de aprendizaje profundo del controlador propietario de Nvidia - GPU (Ubuntu 20.04) 20240502
Actualizado
Se ha actualizado la versión de EFA predeterminada de la 1.30 a la 1.32.
Se actualizó el complemento OFI NCCL de AWS de la versión 1.7.4 a la versión 1.9.1.
Se ha actualizado el kit de herramientas de contenedores de Nvidia de la versión 1.13.5 a la versión 1.15.0
. La versión 1.15.0 NO incluye los paquetes nvidia-container-runtime y nvidia-docker2. Se recomienda utilizar directamente los paquetes nvidia-container-toolkit siguiendo las indicaciones de la documentación del kit de herramientas de contenedores de Nvidia
.
Se agregó
Se ha agregado la pila CUDA12.3 con CUDA12.3, NCCL 2.21.5 y cuDNN 8.9.7.
Eliminaciones
Se han eliminado las pilas CUDA11.7 y CUDA12.0 presentes en los directorios /usr/local/cuda-11.7 y /usr/local/cuda-12.0.
Se han eliminado el paquete nvidia-docker2 y su comando nvidia-docker como parte de la actualización del kit de herramientas de contenedores de Nvidia de la versión 1.13.5 a la 1.15.0
, que NO incluye los paquetes nvidia-container-runtime y nvidia-docker2.
Fecha de la versión: 04/04/2024
Nombres de AMI: AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20240404
Se agregó
En las DLAMI con controlador con software de código abierto de Nvidia, se ha añadido compatibilidad con las instancias G6 y Gr6 EC2. Consulta las instancias de GPU recomendadas para obtener más información.
Fecha de la versión: 29/03/2024
Nombres de AMI
AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20240326
AMI de base de aprendizaje profundo del controlador propietario de Nvidia - GPU (Ubuntu 20.04) 20240326
Actualizado
Se ha actualizado el controlador Nvidia de la versión 535.104.12 a la 535.161.08 en las DLAMI con controlador con software de código abierto y propietario de Nvidia.
Se ha eliminado la compatibilidad con las instancias G4dn y G5 EC2 del controlador DLAMI propietario de Nvidia.
Las nuevas instancias compatibles para cada DLAMI son las siguientes:
El aprendizaje profundo con el controlador propietario de Nvidia admite G3 (no admite G3.16x), P3 y P3dn.
La de aprendizaje profundo con el controlador con software de código abierto de Nvidia admite G4dn, G5, P4d, P4de y P5.
Fecha de la versión: 20/03/2024
Nombres de AMI
AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20240318
AMI de base de aprendizaje profundo del controlador propietario de Nvidia - GPU (Ubuntu 20.04) 20240318
Se agregó
Se ha añadido
awscliv2en la AMI en /usr/local/bin/aws2, junto conawscliv1como /usr/bin/aws en la AMI del controlador propietario de Nvidia.
Fecha de la versión: 14/03/2024
Nombre de AMI: AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20240314
Actualizado
Se ha actualizado la DLAMI del controlador con software de código abierto de Nvidia con compatibilidad para G4dn y G5, por lo que su compatibilidad actual es la siguiente:
La AMI de base de aprendizaje profundo del controlador propietario de Nvidia (Ubuntu 20.04) es compatible con P3, P3dn, G3, G5 y G4dn.
La AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia (Ubuntu 20.04) es compatible con G5, G4dn, P4 y P5.
Se recomienda utilizar DLAMI del controlador Nvidia con software de código abierto para G5, G4dn, P4 y P5.
Fecha de la versión: 2024-02-12
Nombres de AMI
AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20240208
AMI de base de aprendizaje profundo del controlador propietario de Nvidia - GPU (Ubuntu 20.04) 20240208
Actualizado
El complemento OFI NCCL de AWS se ha actualizado de la versión 1.7.3 a la 1.7.4.
Fecha de la versión: 2024-02-01
Nombres de AMI
AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20240201
AMI de base de aprendizaje profundo del controlador propietario de Nvidia - GPU (Ubuntu 20.04) 20240201
Seguridad
Se ha actualizado la versión del paquete runc para incluirla en el parche para CVE-2024-21626
.
Fecha de la versión: 2023-12-04
Nombres de AMI
AMI de base de aprendizaje profundo del controlador con software de código abierto de Nvidia - GPU (Ubuntu 20.04) 20231204
AMI de base de aprendizaje profundo del controlador propietario de Nvidia - GPU (Ubuntu 20.04) 20231204
Se agregó
Las AMI de aprendizaje profundo de AWS (DLAMI) se dividen en dos grupos separados:
Las DLAMI que usan el controlador propietario de Nvidia (compatibles con P3, P3dn, G3, G5 y G4dn).
LAs DLAMI que usan el controlador con software de código abierto de Nvidia para habilitar EFA (compatibles con P4 y P5).
Consulte Cambios importantes en la DLAMI para obtener más información sobre la división de la DLAMI.
Las consultas de AWS CLI anteriores se encuentran en el apartado AMI-ID de la consulta con AWSCLI (la región de ejemplo es us-east-1).
Actualizado
EFA se ha actualizado de la versión 1.26.1 a la 1.29.0.
GDRCopy se ha actualizado de la versión 2.3 a la 2.4.
Fecha de la versión: 18/10/2023
Nombre de AMI: AMI de base de aprendizaje profundo - GPU (Ubuntu 20.04) 20231018
Actualizado
Se ha actualizado el complemento OFI NCCL de AWS de la versión 1.7.2 a la versión 1.7.3.
Se han actualizado los directorios de CUDA 12.0-12.1 con la versión 2.18.5 de NCCL para que coincidan con CUDA 12.2.
CUDA12.1 se ha actualizado como la versión de CUDA predeterminada.
Se ha actualizado LD_LIBRARY_PATH para tener /usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 y PATH para tener /usr/local/cuda-12.1/bin/
Si los clientes que desean cambiar a una versión de CUDA distinta, se debe definir las variables LD_LIBRARY_PATH y PATH en consecuencia.
Fecha de la versión: 2023-10-02
Nombre de AMI: AMI de base de aprendizaje profundo - GPU (Ubuntu 20.04) 20231002
Actualizado
Se ha actualizado el controlador NVIDIA de la 535.54.03 a la 535.104.12.
Este último controlador corrige los cambios importantes en la ABI de la NVML encontrados en la versión 535.54.03 del controlador, así como la regresión del controlador encontrada en la versión 535.86.10 que afectaba a los kits de herramientas de CUDA en las instancias P5. Consulte las siguientes notas de la versión de NVIDIA para obtener más información sobre las correcciones:
Consulte las siguientes notas de la versión de NVIDIA para obtener más información sobre las correcciones:
Se han actualizado los directorios CUDA 12.2 con NCCL 2.18.5.
La EFA se ha actualizado de la versión 1.24.1 a la última 1.26.1.
Se agregó
Se ha añadido CUDA12.2 en /usr/local/cuda-12.2.
Eliminaciones
Se ha eliminado el soporte para CUDA 11.5 y CUDA 11.6.
Fecha de la versión: 26/09/2023
Nombre de AMI: AMI de base de aprendizaje profundo - GPU (Ubuntu 20.04) 20230926
Se agregó
Se han añadido cambios en net.naming-scheme para solucionar el problema impredecible de nomenclatura de la interfaz de red (enlace
) que se producía en la versión P5. Este cambio se efectúa configurando net.naming-scheme=v247 en los argumentos de arranque de Linux del archivo /etc/default/grub.
Fecha de la versión: 30/08/2023
Nombre de AMI: AMI de base de aprendizaje profundo - GPU (Ubuntu 20.04) 20230830
Actualizado
El complemento aws-ofi-nccl se ha actualizado de la versión 1.7.1 a la 1.7.2.
Fecha de la versión: 11/08/2023
Nombre de AMI: AMI de base de aprendizaje profundo - GPU (Ubuntu 20.04) 20230811
Se agregó
Esta AMI ahora admite la funcionalidad de entrenamiento de varios nodos en P5 y en todas las instancias de EC2 compatibles anteriormente.
Para la instancia P5 EC2, se recomienda utilizar NCCL 2.18, que se ha añadido a CUDA12.0 y CUDA12.1.
Eliminaciones
Se ha eliminado el soporte para CUDA 11.3 y CUDA 11.4.
Fecha de la versión: 04/08/2023
Nombre de AMI: AMI de base de aprendizaje profundo - GPU (Ubuntu 20.04) 20230804
Actualizado
Se ha actualizado el complemento OFI NCCL de AWS a v1.7.1.
Se ha establecido CUDA11.8 como predeterminado, ya que PyTorch 2.0 es compatible con la versión 11.8. Para la instancia P5 EC2, se recomienda usar CUDA11.8 o una versión posterior.
Se ha actualizado LD_LIBRARY_PATH para tener /usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 y PATH para tener /usr/local/cuda-11.8/bin/
Para cualquier versión de cuda diferente, defina LD_LIBRARY_PATH como sea necesario.
Se han actualizado los directorios CUDA 12.0 y 12.1 con NCCL 2.18.3.
Fixed
Se ha corregido el problema de carga de paquetes de Nvidia Fabric Manager (FM) mencionado en la fecha de lanzamiento anterior, el 19 de julio de 2023.
Fecha de la versión: 19/07/2023
Nombre de AMI: AMI de base de aprendizaje profundo - GPU (Ubuntu 20.04) 20230719
Actualizado
EFA se ha actualizado de la versión 1.22.1 a la 1.24.1.
Se ha actualizado el controlador Nvidia de la versión 525.85.12 a la 535.54.03.
Se agregó
Se han añadido cambios en el estado C para deshabilitar el estado inactivo del procesador configurando el estado C máximo en C1. Este cambio se efectúa configurando `intel_idle.max_cstate=1 processor.max_cstate=1` en los argumentos de arranque de Linux del archivo /etc/default/grub.
Compatibilidad con instancias de AWS EC2 P5:
Se ha añadido compatibilidad con instancias EC2 P5 para flujos de trabajo que utilizan un solo nodo o instancia. En una próxima versión se añadirá compatibilidad con varios nodos (p. ej., para el entrenamiento con varios nodos) mediante EFA (Elastic Fabric Adapter) y el complemento OFI NCCL de AWS.
Utilice la versión de CUDA 11.8 o una superior para obtener un rendimiento óptimo.
Problema conocido: el paquete de Nvidia Fabric Manager (FM) tarda en cargar en P5, los clientes tienen que esperar de 2 a 3 minutos hasta que se cargue FM tras iniciar la instancia de P5. Para comprobar si FM está iniciado, ejecute el comando sudo systemctl is-active nvidia-fabricmanager. Debe devolver active antes de iniciar cualquier flujo de trabajo. Esto se mejorará en una próxima versión.
Fecha de la versión: 2023-05-19
Nombre de AMI: AMI de base de aprendizaje profundo - GPU (Ubuntu 20.04) 20230519
Actualizado
La EFA se ha actualizado a la última versión 1.22.1.
Se ha actualizado la versión NCCL para CUDA 12.1 a la 2.17.1.
Se agregó
Se ha añadido CUDA12.1 en /usr/local/cuda-12.1.
Se ha añadido compatibilidad con el Monitor de GPU para centros de datos de NVIDIA (DCGM)
a través del paquete datacenter-gpu-manager. Puede comprobar el estado de este servicio mediante la siguiente consulta: sudo systemctl status nvidia-dcgm.
Los almacenes de instancias de NVMe efímeros ahora se montan automáticamente en las instancias EC2 compatibles y se puede acceder al almacenamiento en la carpeta /opt/dlami/nvme/. Puede comprobar o modificar este servicio de las siguientes maneras:
Compruebe el estado del servicio NVMe: sudo systemctl status dlami-nvme.
Para acceder al servicio o modificarlo: /opt/aws/dlami/bin/nvme_ephemeral_drives.sh.
Los volúmenes NVMe proporcionaron soluciones de almacenamiento más rápidas y eficientes para flujos de trabajo de alto rendimiento que requieren un gran rendimiento de IOPS. Los almacenes de instancias NVMe efímeros se incluyen en el costo de las instancias, por lo que este servicio no implica ningún costo adicional.
Los almacenes de instancias NVMe solo se montarán en las instancias EC2 que los admitan. Para obtener información sobre las instancias EC2 con almacenes de instancias compatibles con NVMe, consulte los volúmenes de almacenes de instancias disponibles y valide su compatibilidad con NVMe.
Para mejorar el rendimiento del disco y reducir las penalizaciones en la primera escritura, puede inicializar los almacenes de instancias (tenga en cuenta que este proceso puede tardar horas en función del tipo de instancia EC2). Cómo inicializar los volúmenes de almacenes de instancias en las instancias EC2
NOTA: Los almacenes de instancias NVMe se montan en la instancia y no están conectados a la red como EBS. Es posible que los datos de estos volúmenes NVMe se pierdan al reiniciar o detener la instancia.
Fecha de la versión: 17/04/2023
Nombre de AMI: AMI de base de aprendizaje profundo - GPU (Ubuntu 20.04) 20230414
Actualizado
Se ha actualizado el nombre de DLAMI de AMI de base de aprendizaje profundo de AWS - GPU CUDA 11 (Ubuntu 20.04) ${YYYY-MM-DD} a AMI de base de aprendizaje profundo - GPU (Ubuntu 20.04) ${YYYY-MM-DD}
Tenga en cuenta que, durante un mes a partir de esta publicación, seguiremos ofreciendo la DLAMI más reciente con el de la AMI anterior para cualquier soporte necesario. Los clientes pueden actualizar sus paquetes de sistema operativo mediante apt-get update && apt-get upgrade para aplicar los parches de seguridad.
Se ha actualizado la ruta del complemento OFI NCCL de AWS de /usr/local/cuda-xx.x/efa/ a /opt/aws-ofi-nccl/.
Se ha actualizado NCCL a una rama de GIT personalizada
de la versión 2.16.2, creada en colaboración con AWS y un equipo de NCCL para todas las versiones de CUDA. Funciona mejor en la infraestructura de AWS.
Se agregó
Se ha añadido CUDA12.0 en /usr/local/cuda-12.0.
Se ha añadido AWSFSx
Se ha añadido compatibilidad con la versión 3.9 de Python en /usr/bin/python3.9.
Tenga en cuenta que este cambio no reemplaza el sistema predeterminado de Python, python3 seguirá apuntando al sistema Python3.8.
Se puede acceder a Python3.9 mediante los siguientes comandos:
/usr/bin/python3.9 python3.9
Eliminaciones
Se han quitado los CUDA11.0-11.1 de /usr/local/cuda-11.x/, ya que ninguna versión de marco compatible los utiliza según la política de compatibilidad de marcos.
Fecha de la versión: 2022-05-25
Nombre de AMI: AMI de base de aprendizaje profundo de AWS - GPU CUDA 11 (Ubuntu 20.04) 20220523
Actualizado
En esta versión se añade compatibilidad con la nueva instancia de EC2 p4de.24xlarge.
Se ha actualizado aws-efa-installer a la versión 1.15.2
Se ha actualizado aws-ofi-nccl a la versión 1.3.0-aws, que incluye la topología de p4de.24xlarge.
Fecha de la versión: 25/03/2022
Nombre de AMI: AMI de base de aprendizaje profundo de AWS - GPU CUDA 11 (Ubuntu 20.04) 20220325
Actualizado
Se ha actualizado la versión de EFA de 1.15.0 a 1.15.1.
Fecha de la versión: 17/03/2022
Nombre de AMI: AMI de base de aprendizaje profundo de AWS - GPU CUDA 11 (Ubuntu 20.04) 20220323
Se agregó
Primera versión