Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
AWS AMI de GPU de base de aprendizaje profundo (Ubuntu 20.04)
Aviso de Out of Support
Ubuntu Linux 20.04 LTS llegará al final de su período de cinco años de LTS el 31 de mayo de 2025 y su proveedor dejará de ofrecer soporte. En consecuencia, la AMI de GPU AWS Deep Learning Base (Ubuntu 20.04) no tendrá actualizaciones después del 31 de mayo de 2025. Las versiones anteriores seguirán estando disponibles. Tenga en cuenta que cualquier AMI que se publique quedará obsoleta dos años EC2 después de su fecha de creación. Consulte Cómo desaprobar una EC2 AMI de Amazon para obtener más información.
Durante 3 meses, hasta el 31 de agosto de 2025, solo se proporcionará soporte para problemas de funcionalidad (no para parches de seguridad).
Los usuarios de Ubuntu 20.04 DLAMI deberían pasarse AWS a la AMI de GPU de Deep Learning Base (Ubuntu 22.04) o a la AMI de GPU de AWS Deep Learning Base
(Ubuntu 24.04 ). Como alternativa, se puede utilizar AWS Deep Learning Base AMI (Amazon Linux 2023) .
Si necesita ayuda para empezar, consulteIntroducción a las DLAMI.
Formato de nombre AMI
Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 20.04) $ {YYY-MM-DD}
AMI de GPU con controlador Nvidia patentado por Deep Learning Base (Ubuntu 20.04) $ {YYY-MM-DD}
EC2 Instancias compatibles
Consulte Cambios importantes en la DLAMI.
Aprendizaje profundo con OSS El controlador Nvidia es compatible con G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
El aprendizaje profundo con el controlador patentado de Nvidia es compatible con G3 (no compatible con G3.16x), P3 y P3dn
La AMI incluye lo siguiente:
AWS Servicio compatible: Amazon EC2
Sistema operativo: Ubuntu 20.04
Arquitectura de cómputo: x86
La última versión disponible está instalada para los siguientes paquetes:
Núcleo de Linux 5.15
FSx Lustre
Docker
AWS CLI v2 en/usr/local/bin/aws2 y AWS CLI v1 en/usr/bin/aws
NVIDIA DCGM
Kit de herramientas de contenedores Nvidia:
Comando de versión: -V nvidia-container-cli
Nvidia-Docker2:
Comando de versión: versión nvidia-docker
Controlador NVIDIA:
Controlador OSS Nvidia: 550.163.01
Controlador Nvidia patentado: 550.163.01
Pila NVIDIA CUDA 11.7, 12.1-12.4:
Directorios de instalación de CUDA, NCCL y CUDDN:/-xx.x/ usr/local/cuda
Ejemplo:/-12.1/ usr/local/cuda
Versión NCCL compilada: 2.22.3+ 4. CUDA12
CUDA predeterminado: 12.1
PATH/usr/local/cudaapunta a CUDA 12.1
Se actualizó a continuación las siguientes variables de entorno:
LD_LIBRARY_PATH tendrá/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PATH para tener//usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include
Para cualquier versión de CUDA diferente, actualice LD_LIBRARY_PATH en consecuencia.
Ubicación de las pruebas de la NCCL:
all_reduce, all_gather y reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Para ejecutar las pruebas de la NCCL, LD_LIBRARY_PATH debe pasar las siguientes actualizaciones.
Las más comunes ya están añadidas a LD_LIBRARY_PATH: PATHs
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
Para cualquier versión de CUDA diferente, actualice LD_LIBRARY_PATH en consecuencia.
Instalador de EFA: 1.39.0
Nvidia: 2.4 GDRCopy
AWS Plugin OFI NCCL: se instala como parte del instalador EFA (AWS)
AWS OFI NCCL ahora admite múltiples versiones de NCCL con una sola versión
La ruta de instalación:/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libse agrega a LD_LIBRARY_PATH.
Comprueba la ruta del anillo, message_transfer:/opt/aws-ofi-nccl/tests
Tipo de volumen de EBS: gp3
Python:/usr/bin/python3.9
NVMe Ubicación del almacén de instancias (en EC2 las instancias compatibles):/opt/dlami/nvme
Consulte el AMI-ID con el parámetro SSM (la región de ejemplo es us-east-1):
Controlador OSS Nvidia:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output textControlador Nvidia patentado:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
Consulta el AMI-ID con AWSCLI (por ejemplo, la región es us-east-1):
Controlador OSS Nvidia:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output textControlador Nvidia patentado:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Avisos
Kit de herramientas NVIDIA Container 1.17.4
En la versión 1.17.4 del Container Toolkit, el montaje de bibliotecas compatibles con CUDA ahora está deshabilitado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, asegúrese de actualizar su LD_LIBRARY_PATH para incluir las bibliotecas de compatibilidad con CUDA, tal y como se muestra en el tutorial sobre si utiliza una capa de compatibilidad CUDA.
La EFA se actualiza de la versión 1.37 a la 1.38 (publicada el 4 de febrero de 2020)
EFA ahora incluye el complemento AWS OFI NCCL, que ahora se encuentra en/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si va a actualizar la variable LD_LIBRARY_PATH, asegúrese de modificar correctamente la ubicación de su OFI NCCL.
Política de Support
Los componentes de esta AMI, como las versiones de CUDA, se pueden eliminar y cambiar en función de la política de soporte del marco o para optimizar el rendimiento de los contenedores de aprendizaje profundo
EC2 instancias con varias tarjetas de red
Muchos tipos de instancias que admiten EFA también tienen varias tarjetas de red.
DeviceIndex es único para cada tarjeta de red y debe ser un entero no negativo inferior al límite de ENIs per. NetworkCard En P5, el número de ENIs per NetworkCard es 2, lo que significa que los únicos valores válidos DeviceIndex son 0 o 1.
Para la interfaz de red principal (índice de tarjeta de red 0, índice de dispositivo 0), cree una interfaz EFA (EFA con ENA). No puede utilizar una interfaz de red exclusiva para EFA como interfaz de red principal.
Para cada interfaz de red adicional, utilice el siguiente índice de tarjetas de red no utilizado, el índice de dispositivos 1, y una interfaz de red EFA (EFA con ENA) o solo EFA, según el caso de uso, como los requisitos de ancho de banda de la ENA o el espacio de direcciones IP. Para ver ejemplos de casos de uso, consulte Configuración de EFA para instancias P5.
Instancias P5/P5e
Las instancias P5 y P5e contienen 32 tarjetas de interfaz de red y se pueden lanzar mediante el siguiente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Las instancias P5en
Las P5en contienen 16 tarjetas de interfaz de red y se pueden iniciar mediante el siguiente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
La versión del núcleo se fija mediante el comando:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selectionsRecomendamos a los usuarios que eviten actualizar su versión del núcleo (a menos que sea debido a un parche de seguridad) para garantizar la compatibilidad con los controladores y las versiones de los paquetes instalados. Si los usuarios aún desean actualizar, pueden ejecutar los siguientes comandos para desfijar sus versiones del núcleo:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selectionsPara cada nueva versión de DLAMI, se utiliza el último núcleo compatible disponible.
Fecha de lanzamiento: 24 de abril de 2020
Nombres AMI
Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 20.04) 20250424
AMI de GPU con controlador Nvidia patentado por Deep Learning Base (Ubuntu 20.04) 20250424
Actualizado
Fecha de lanzamiento: 17 de febrero de 2021
Nombres AMI
Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 20.04) 20250214
AMI de GPU con controlador Nvidia patentado por Deep Learning Base (Ubuntu 20.04) 20250214
Actualizado
Se actualizó el kit de herramientas NVIDIA Container de la versión 1.17.3 a la versión 1.17.4
En la versión 1.17.4 del Container Toolkit, el montaje de bibliotecas compatibles con CUDA ahora está deshabilitado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, asegúrese de actualizar su LD_LIBRARY_PATH para incluir las bibliotecas de compatibilidad con CUDA, tal y como se muestra en el tutorial sobre si utiliza una capa de compatibilidad CUDA.
Eliminaciones
Fecha de lanzamiento: 4 de febrero de 2020
Nombres AMI
Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 20.04) 20250204
AMI de GPU con controlador Nvidia patentado por Deep Learning Base (Ubuntu 20.04) 20250204
Actualizado
Se actualizó la versión EFA de 1.37.0 a 1.38.0
EFA ahora incluye el complemento AWS OFI NCCL, que ahora se encuentra en/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si va a actualizar la variable LD_LIBRARY_PATH, asegúrese de modificar correctamente la ubicación de su OFI NCCL.
Eliminaciones
Se ha eliminado el paquete emacs de estos. DLAMIs Los clientes pueden instalar emacs desde GNU emacs. https://www.gnu.org/software/emacs/download.html
Fecha de lanzamiento: 17 de enero de 2020
Nombres AMI
Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 20.04) 20250117
AMI de GPU con controlador Nvidia patentado por Deep Learning Base (Ubuntu 20.04) 20250117
Actualizado
Fecha de lanzamiento: 9 de diciembre de 2020
Nombres AMI
Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 20.04) 20241206
AMI de GPU con controlador Nvidia patentado por Deep Learning Base (Ubuntu 20.04) 20241206
Actualizado
Se actualizó el kit de herramientas Nvidia Container de la versión 1.17.0 a la 1.17.3
Fecha de lanzamiento: 22 de noviembre de 2022
Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241122
Added
Se agregó soporte para las instancias P5en. EC2
Actualizado
Se actualizó el instalador de EFA de la versión 1.35.0 a la 1.37.0
Actualice el complemento AWS OFI NCCL de la versión 1.12.1-aws a la 1.13.0-aws
Fecha de lanzamiento: 26 de octubre de 2020
Nombres AMI
Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 20.04) 20241025
AMI de GPU con controlador Nvidia patentado por Deep Learning Base (Ubuntu 20.04) 20241025
Actualizado
Fecha de lanzamiento: 3 de octubre de 2024
Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240927
Actualizado
Se actualizó el kit de herramientas Nvidia Container de la versión 1.16.1 a la 1.16.2
Fecha de lanzamiento: 27 de agosto de 2020
Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240827
Actualizado
Se actualizaron el controlador Nvidia y Fabric Manager de la versión 535.183.01 a la 550.90.07
Se actualizó la versión EFA de la 1.32.0 a la 1.34.0
Se actualizó el NCCL a la última versión 2.22.3 para todas las versiones de CUDA
CUDA 11.7 se actualizó desde la versión 2.16.2+. CUDA11
CUDA 12.1 y 12.2 se actualizaron desde la versión 2.18.5+ 2 CUDA12
CUDA 12.3 se actualizó desde la versión 2.21.5+. CUDA12
Added
Se agregó la versión 12.4 del kit de herramientas CUDA en el directorio/-12.4 usr/local/cuda
Se agregó soporte para la instancia P5e. EC2
Eliminaciones
Se ha eliminado la pila de la versión 11.8 del CUDA Toolkit presente en el directorio/-11.8 usr/local/cuda
Fecha de lanzamiento: 19 de agosto de 2020
Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240816
Added
Fecha de lanzamiento: 06-06-20
Nombres AMI
Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 20.04) 20240606
AMI de GPU con controlador Nvidia patentado por Deep Learning Base (Ubuntu 20.04) 20240606
Actualizado
Se actualizó la versión del controlador Nvidia a 535.183.01 desde 535.161.08
Fecha de lanzamiento: 15 de mayo de 2020
Nombres AMI
Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 20.04) 20240515
AMI de GPU con controlador Nvidia patentado por Deep Learning Base (Ubuntu 20.04) 20240515
Added
Se agregó la pila back CUDA11 .7 en el directorio//usr/local/cuda-11.7 con CUDA11 .7, NCCL 2.16.2, CuDNN 8.7.0, ya que 1.13 admite .7 PyTorch CUDA11
Fecha de lanzamiento: 2024-05-02
Nombres AMI
Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 20.04) 20240502
AMI de GPU con controlador Nvidia patentado por Deep Learning Base (Ubuntu 20.04) 20240502
Actualizado
Se actualizó la versión EFA de la versión 1.30 a la versión 1.32
Se actualizó el complemento AWS OFI NCCL de la versión 1.7.4 a la versión 1.9.1
-
La versión 1.15.0 NO incluye los paquetes ni nvidia-docker2. nvidia-container-runtime Se recomienda utilizar los nvidia-container-toolkit paquetes directamente siguiendo la documentación del kit de herramientas de contenedores de Nvidia.
Added
Se agregó una pila CUDA12 3.3 con CUDA12 0.3, NCCL 2.21.5, CuDNN 8.97.
Eliminaciones
Se eliminaron las pilas .7, CUDA11 .0 presentes en los directorios/-12.0 CUDA12 usr/local/cuda-11.7 and /usr/local/cuda
Se eliminaron el paquete nvidia-docker2 y su comando nvidia-docker como parte de la actualización del kit de herramientas de contenedores de Nvidia de la 1.13.5 a la 1.15.0, que NO incluye los paquetes ni nvidia-docker2.
nvidia-container-runtime
Fecha de lanzamiento: 4 de abril de 2020
Nombres de AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240404
Added
Para el controlador OSS Nvidia DLAMIs, se agregó compatibilidad con las instancias G6 y Gr6. EC2 Consulta las instancias de GPU recomendadas para obtener más información.
Fecha de lanzamiento: 29 de marzo de 2020
Nombres AMI
Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 20.04) 20240326
AMI de GPU con controlador Nvidia patentado por Deep Learning Base (Ubuntu 20.04) 20240326
Actualizado
Se actualizó el controlador Nvidia de 535.104.12 a 535.161.08 tanto en el controlador Nvidia propietario como en el controlador OSS. DLAMIs
Se eliminó la compatibilidad con las EC2 instancias G4dn y G5 del controlador DLAMI patentado de Nvidia.
Las nuevas instancias compatibles para cada DLAMI son las siguientes:
El aprendizaje profundo con el controlador patentado de Nvidia es compatible con G3 (no se admite G3.16x), P3 y P3dn
Aprendizaje profundo con OSS El controlador Nvidia es compatible con G4dn, G5, P4d, P4de, P5.
Fecha de lanzamiento: 2024-03-20
Nombres AMI
Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 20.04) 20240318
AMI de GPU con controlador Nvidia patentado por Deep Learning Base (Ubuntu 20.04) 20240318
Added
Se agregó
awscliv2en la AMI en/usr/local/bin/aws2, junto conawscliv1usr/bin/aws /en la AMI propietaria y OSS Nvidia Driver
Fecha de lanzamiento: 14 de marzo de 2020
Nombre de la AMI: Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240314
Actualizado
El controlador OSS Nvidia DLAMI actualizado con soporte para G4dn y G5, según su soporte actual, se ve a continuación:
El controlador Nvidia AMI (Ubuntu 20.04) patentado por Deep Learning Base es compatible con P3, P3dn, G3, G5 y G4dn.
El controlador Nvidia AMI de Deep Learning Base OSS (Ubuntu 20.04) es compatible con G5, G4dn, P4 y P5.
Se recomienda utilizar el controlador DLAMIs OSS Nvidia para G5, G4dn, P4, P5.
Fecha de lanzamiento: 12 de febrero de 2020
Nombres AMI
Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 20.04) 20240208
AMI de GPU con controlador Nvidia patentado por Deep Learning Base (Ubuntu 20.04) 20240208
Actualizado
AWS El complemento OFI NCCL se ha actualizado de la versión 1.7.3 a la 1.7.4
Fecha de lanzamiento: 01/02/2020
Nombres AMI
Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 20.04) 20240201
AMI de GPU con controlador Nvidia patentado por Deep Learning Base (Ubuntu 20.04) 20240201
Seguridad
Fecha de lanzamiento: 4 de diciembre de 2020
Nombres AMI
Base de aprendizaje profundo OSS Controlador Nvidia GPU AMI (Ubuntu 20.04) 20231204
AMI de GPU con controlador Nvidia patentado por Deep Learning Base (Ubuntu 20.04) 20231204
Added
AWS La AMI de aprendizaje profundo (DLAMI) se divide en dos grupos separados:
DLAMI que utiliza el controlador propietario de Nvidia (compatible con P3, P3dn, G3, G5, G4dn).
DLAMI que usa el controlador OSS de Nvidia para habilitar EFA (para admitir P4, P5).
Consulte Cambios importantes en la DLAMI para obtener más información sobre la división de la DLAMI.
AWS CLI las consultas anteriores están debajo del identificador AMI-ID de consulta con viñetas AWSCLI (por ejemplo, la región es us-east-1)
Actualizado
La EFA se actualizó de la versión 1.26.1 a la 1.29.0
GDRCopy actualizado de 2.3 a 2.4
Fecha de lanzamiento: 18-10-2020
Nombre de la AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20231018
Actualizado
AWS El complemento OFI NCCL se actualizó de la versión 1.7.2 a la versión 1.7.3
Se actualizaron los directorios CUDA 12.0-12.1 con la versión 2.18.5 de NCCL para que coincidan con CUDA 12.2
CUDA12.1 actualizado como la versión CUDA predeterminada
Se actualizó LD_LIBRARY_PATH para que tuviera//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
Para los clientes que deseen cambiar a una versión de CUDA diferente, defina las variables LD_LIBRARY_PATH y PATH en consecuencia.
Fecha de lanzamiento: 02 de octubre de 2023
Nombre de la AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20231002
Actualizado
El controlador NVIDIA se actualizó de 535.54.03 a 535.104.12
Este último controlador corrige los cambios importantes en la ABI de NVML encontrados en la versión 535.54.03 del controlador, así como la regresión del controlador encontrada en la versión 535.86.10 que afectaba a los kits de herramientas CUDA en las instancias P5. Consulte las siguientes notas de la versión de NVIDIA para obtener más información sobre las correcciones:
Consulte las siguientes notas de la versión de NVIDIA para obtener más información sobre las correcciones:
Se actualizaron los directorios CUDA 12.2 con NCCL 2.18.5
EFA se actualizó de la versión 1.24.1 a la última 1.26.1
Added
Se agregó 1.2 en/-12.2 CUDA12 usr/local/cuda
Eliminaciones
Se eliminó el soporte para CUDA 11.5 y CUDA 11.6
Fecha de lanzamiento: 26 de septiembre de 2020
Nombre de la AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230926
Added
Se agregaron cambios en net.naming-scheme para solucionar el impredecible problema de nomenclatura de la interfaz de red (enlace) que se producía en la versión P5.
Este cambio se realiza configurando net.naming-scheme=v247 en los argumentos de arranque de Linux del archivo/etc/default/grub
Fecha de lanzamiento: 30 de agosto de 2020
Nombre de la AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230830
Actualizado
El aws-ofi-nccl complemento se actualizó de la v1.7.1 a la v1.7.2
Fecha de lanzamiento: 11/08/2020
Nombre de la AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230811
Added
Esta AMI ahora admite la funcionalidad de entrenamiento de varios nodos en P5 y en todas las instancias compatibles anteriormente EC2 .
Para la EC2 instancia P5, se recomienda utilizar NCCL 2.18, que se ha agregado a las versiones .0 y .1. CUDA12 CUDA12
Eliminaciones
Se ha eliminado el soporte para 2.3 y 2.4. CUDA11 CUDA11
Fecha de lanzamiento: 4 de agosto de 2020
Nombre de la AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230804
Actualizado
Se actualizó el complemento AWS OFI NCCL a la versión 1.7.1
Por defecto, la PyTorch versión 2.0 es compatible con la versión 11.8 y, para la EC2 instancia P5, se recomienda usar >= CUDA11 .8 CUDA11
Se actualizó LD_LIBRARY_PATH para que tuviera//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
Para cualquier versión de cuda diferente, defina LD_LIBRARY_PATH en consecuencia.
Se actualizaron los directorios CUDA 12.0 y 12.1 con NCCL 2.18.3
Fixed
Se corrigió el problema de carga de paquetes de Nvidia Fabric Manager (FM) mencionado en la fecha de lanzamiento anterior del 19 de julio de 2021.
Fecha de lanzamiento: 2023-07-19
Nombre de la AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230719
Actualizado
La EFA se actualizó de la versión 1.22.1 a la 1.24.1
El controlador Nvidia se actualizó del 525.85.12 al 535.54.03
Added
Se agregaron cambios en el estado c para deshabilitar el estado inactivo del procesador configurando el estado c máximo en C1. Este cambio se realiza configurando `intel_idle.max_cstate=1 processor.max_cstate=1` en los argumentos de arranque de Linux del archivo/etc/default/grub
AWS EC2 Compatibilidad con instancias P5:
Se agregó compatibilidad con EC2 instancias P5 para flujos de trabajo que utilizan un solo nodo/instancia. En una próxima versión se añadirá la compatibilidad con varios nodos (p. ej., para el entrenamiento con varios nodos) mediante EFA (Elastic Fabric Adapter) y el AWS complemento OFI NCCL.
Utilice CUDA>=11.8 para obtener un rendimiento óptimo.
Problema conocido: el paquete Nvidia Fabric Manager (FM) tarda en cargarse en P5, los clientes tienen que esperar de 2 a 3 minutos hasta que se cargue FM tras iniciar la instancia de P5. Para comprobar si FM está iniciada, ejecuta el comando sudo systemctl is-active nvidia-fabricmanager. Debería volver a activarse antes de iniciar cualquier flujo de trabajo. Esto se mejorará en la próxima versión.
Fecha de lanzamiento: 2023-05-19
Nombre de la AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230519
Actualizado
EFA actualizada a la última versión de la versión 1.22.1
Se ha actualizado la versión NCCL para CUDA 12.1 a la 2.17.1
Added
CUDA12Se agregó 1.1 usr/local/cuda a/-12.1
Se agregó soporte para el monitor de GPU NVIDIA Data Center (DCGM)
a través del paquete datacenter-gpu-manager Puede comprobar el estado de este servicio mediante la siguiente consulta: sudo systemctl status nvidia-dcgm
Los almacenes de NVMe instancias efímeras ahora se montan automáticamente en las EC2 instancias compatibles y se puede acceder al almacenamiento en la carpeta//. opt/dlami/nvme Puede comprobar o modificar este servicio de las siguientes maneras:
Compruebe el estado del NVMe servicio: sudo systemctl status dlami-nvme
Para acceder al servicio o modificarlo:/_ephemeral_drives.sh opt/aws/dlami/bin/nvme
NVMe Volumes proporcionó las soluciones de almacenamiento más rápidas y eficientes para flujos de trabajo de alto rendimiento que requieren un rendimiento de IOPS. Los almacenes de NVMe instancias efímeras se incluyen en el costo de las instancias, por lo que este servicio no implica ningún costo adicional.
NVMe Los almacenes de instancias solo se montarán en las EC2 instancias que los admitan. Para obtener información sobre EC2 las instancias con almacenes de instancias NVMe compatibles, consulta los volúmenes de almacenes de instancias disponibles y valida NVMe si son compatibles.
Para mejorar el rendimiento del disco y reducir las penalizaciones en la primera escritura, puedes inicializar los almacenes de instancias (ten en cuenta que este proceso puede tardar horas en función del tipo de EC2 instancia). Inicializa los volúmenes del almacén de instancias en las instancias EC2
NOTA: los almacenes de NVMe instancias están montados en la instancia y no están conectados a la red como EBS. Es posible que los datos de estos NVMe volúmenes se pierdan al reiniciar o detener la instancia.
Fecha de lanzamiento: 17 de abril de 2021
Nombre de la AMI: Deep Learning Base GPU AMI (Ubuntu 20.04) 20230414
Actualizado
Se actualizó el nombre DLAMI AWS de Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) $ {YYY-MM-DD} a Deep Learning Base GPU AMI (Ubuntu 20.04) $ {YYY-MM-DD}
Tenga en cuenta que admitiremos la última DLAMI con un nombre de AMI anterior durante un mes a partir de esta versión para cualquier soporte necesario. Los clientes pueden actualizar sus paquetes de sistema operativo apt-get update y apt-get upgrade para consumir parches de seguridad.
Se actualizó la ruta del plugin AWS OFI NCCL desde/-ofi-nccl/ usr/local/cuda-xx.x/efa/ to /opt/aws
Se actualizó NCCL a una rama GIT personalizada
de la versión 2.16.2, escrita en colaboración con un equipo de NCCL para todas las versiones de CUDA. AWS Funciona mejor en infraestructura. AWS
Added
Se agregó CUDA12 3.0 a/usr/local/cuda-12.0
Se ha agregado AWS FSx
Se agregó soporte para la versión 3.9 de Python en/usr/bin/python3.9
Tenga en cuenta que este cambio no reemplaza el sistema predeterminado Python, python3 seguirá apuntando al sistema Python3.8.
Se puede acceder a Python3.9 mediante los siguientes comandos:
/usr/bin/python3.9 python3.9
Eliminaciones
Fecha de lanzamiento: 25 de mayo de 2022
Nombre de la AMI: AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) 20220523
Actualizado
Esta versión añade compatibilidad con la nueva instancia p4de.24xlarge. EC2
Se actualizó a la aws-efa-installer versión 1.15.2
Se actualizó aws-ofi-nccl a la versión 1.3.0-aws, que incluye la topología de p4de.24xlarge.
Fecha de lanzamiento: 25 de marzo de 2022
Nombre de la AMI: AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) 20220325
Actualizado
Se actualizó la versión EFA de 1.15.0 a 1.15.1
Fecha de lanzamiento: 17 de marzo de 2022
Nombre de la AMI: AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) 20220323
Added
Primera versión