Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
AWS AMI de Deep Learning Base (Amazon Linux 2)
Si necesita ayuda para empezar, consulteIntroducción a las DLAMI.
Formato de nombre AMI
Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión $ {XX.X}
Controlador Nvidia AMI (Amazon Linux 2) propiedad de Deep Learning Base, versión $ {XX.X}
Instancias compatibles EC2
Consulte Cambios importantes en la DLAMI.
Aprendizaje profundo con OSS El controlador Nvidia es compatible con G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
El aprendizaje profundo con el controlador patentado de Nvidia es compatible con G3 (no compatible con G3.16x), P3 y P3dn
La AMI incluye lo siguiente:
AWS Servicio compatible: Amazon EC2
Sistema operativo: Amazon Linux 2
Arquitectura de cómputo: x86
La última versión disponible está instalada para los siguientes paquetes:
Núcleo de Linux: 5.10
Docker
AWS CLI v2 en/usr/local/bin/aws2 y AWS CLI v1 en/usr/bin/aws
Kit de herramientas de contenedores Nvidia:
Comando de versión: -V nvidia-container-cli
Nvidia-Docker2:
Comando de versión: versión nvidia-docker
Python:/usr/bin/python3.7
Controlador NVIDIA:
Controlador OSS Nvidia: 550.163.01
Controlador Nvidia patentado: 550.163.01
Pila NVIDIA CUDA 12.1-12.4:
Directorios de instalación de CUDA, NCCL y CUDDN:/-xx.x/ usr/local/cuda
CUDA predeterminado: 12.1
PATH/usr/local/cudaapunta a CUDA 12.1
Se actualizó a continuación las siguientes variables de entorno:
LD_LIBRARY_PATH tendrá/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PATH para tener//usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include
Para cualquier versión de CUDA diferente, actualice LD_LIBRARY_PATH en consecuencia.
Versión NCCL compilada: 2.22.3
Ubicación de las pruebas de la NCCL:
all_reduce, all_gather y reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Para ejecutar las pruebas de la NCCL, LD_LIBRARY_PATH debe pasar las siguientes actualizaciones.
Las más comunes ya están añadidas a LD_LIBRARY_PATH: PATHs
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
Para cualquier versión de CUDA diferente, actualice LD_LIBRARY_PATH en consecuencia.
Instalador de EFA: 1.38.0
Nvidia: 2.4 GDRCopy
AWS PARA NCCL: 1.13.2
AWS OFI NCCL ahora admite múltiples versiones de NCCL con una sola versión
Ruta de instalación:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib64 se agrega a LD_LIBRARY_PATH.
Tipo de volumen de EBS: gp3
Consulte el AMI-ID con el parámetro SSM (la región de ejemplo es us-east-1):
Controlador OSS Nvidia:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output textControlador Nvidia patentado:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output text
Consulta el AMI-ID con AWSCLI (por ejemplo, la región es us-east-1):
Controlador OSS Nvidia:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output textControlador Nvidia patentado:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Avisos
Kit de herramientas NVIDIA Container 1.17.4
En la versión 1.17.4 del Container Toolkit, el montaje de bibliotecas compatibles con CUDA ahora está deshabilitado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, asegúrese de actualizar su LD_LIBRARY_PATH para incluir las bibliotecas de compatibilidad con CUDA, tal y como se muestra en el tutorial sobre si utiliza una capa de compatibilidad CUDA.
La EFA se actualiza de la versión 1.37 a la 1.38 (publicada el 4 de febrero de 2020)
EFA ahora incluye el complemento AWS OFI NCCL, que ahora se encuentra en/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si va a actualizar la variable LD_LIBRARY_PATH, asegúrese de modificar correctamente la ubicación de su OFI NCCL.
Política de Support
Estos AMIs componentes de esta AMI, como las versiones de CUDA, pueden eliminarse y modificarse en función de la política de soporte del marco o para optimizar el rendimiento de los contenedores de aprendizaje profundo
EC2 instancias con varias tarjetas de red
Muchos tipos de instancias que admiten EFA también tienen varias tarjetas de red.
DeviceIndex es único para cada tarjeta de red y debe ser un número entero no negativo inferior al límite de ENIs per. NetworkCard En P5, el número de ENIs per NetworkCard es 2, lo que significa que los únicos valores válidos DeviceIndex son 0 o 1.
Para la interfaz de red principal (índice de tarjeta de red 0, índice de dispositivo 0), cree una interfaz EFA (EFA con ENA). No puede utilizar una interfaz de red exclusiva para EFA como interfaz de red principal.
Para cada interfaz de red adicional, utilice el siguiente índice de tarjetas de red no utilizado, el índice de dispositivos 1, y una interfaz de red EFA (EFA con ENA) o solo EFA, según el caso de uso, como los requisitos de ancho de banda de la ENA o el espacio de direcciones IP. Para ver ejemplos de casos de uso, consulte Configuración de EFA para instancias P5.
Instancias P5/P5e
Las instancias P5 y P5e contienen 32 tarjetas de interfaz de red y se pueden lanzar mediante el siguiente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Las instancias P5en
Las P5en contienen 16 tarjetas de interfaz de red y se pueden iniciar mediante el siguiente comando: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
La versión del núcleo se fija mediante el comando:
sudo yum versionlock kernel*
Recomendamos a los usuarios que eviten actualizar su versión del núcleo (a menos que sea debido a un parche de seguridad) para garantizar la compatibilidad con los controladores y las versiones de los paquetes instalados. Si los usuarios aún desean actualizar, pueden ejecutar los siguientes comandos para desbloquear sus versiones del núcleo:
sudo yum versionlock delete kernel* sudo yum update -y
Para cada nueva versión de DLAMI, se utiliza el último núcleo compatible disponible.
Fecha de lanzamiento: 22 de abril de 2020
Nombres AMI
Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 69.3
Controlador Nvidia (Amazon Linux 2) (AMI) patentado por Deep Learning Base, versión 67.0
Actualizado
Se actualizó el controlador Nvidia de la versión 550.144.03 a la 550.163.01 para adaptarlo a lo indicado en el boletín de seguridad del controlador de pantalla de CVEs GPU de NVIDIA de abril de 2025
Fecha de lanzamiento: 17 de febrero de 2021
Nombres AMI
Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 68.5
Controlador Nvidia AMI (Amazon Linux 2) propiedad de Deep Learning Base, versión 66.3
Actualizado
Se actualizó el kit de herramientas NVIDIA Container de la versión 1.17.3 a la versión 1.17.4. Consulte la página de notas de la versión aquí para obtener más información:/1.17.4 https://github.com/NVIDIA/ nvidia-container-toolkit releases/tag/v
Eliminaciones
Se eliminaron las bibliotecas de espacio de usuario cuobj y nvdisasm proporcionadas por el kit de herramientas CUDA de NVIDIA para abordar las CVEs presentes en el boletín de seguridad del kit de herramientas NVIDIA
CUDA del 18 de febrero de 2025
Fecha de lanzamiento: 4 de febrero de 2020
Nombres AMI
Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 68.4
Controlador Nvidia AMI (Amazon Linux 2) propiedad de Deep Learning Base, versión 66.1
Actualizado
-
Se actualizó la versión EFA de la 1.37.0 a la 1.38.0
Fecha de lanzamiento: 17 de enero de 2020
Nombres AMI
Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 68.3
Controlador Nvidia AMI (Amazon Linux 2) propiedad de Deep Learning Base, versión 66.0
Actualizado
Se actualizó el controlador Nvidia de la versión 550.127.05 a la 550.144.03 para adaptarlo a lo indicado en el boletín de seguridad del controlador de CVEs pantalla de GPU de NVIDIA
de enero de 2025
Fecha de lanzamiento: 6 de enero de 2020
Nombres AMI
Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 68.2
Controlador Nvidia AMI (Amazon Linux 2) patentado por Deep Learning Base, versión 65.9
Actualizado
Se actualizó el EFA de la versión 1.34.0 a la 1.37.0
Se actualizó el AWS OFI NCCL de la versión 1.11.0 a la 1.13.0
Fecha de lanzamiento: 9 de diciembre de 2020
Nombres AMI
Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 68.1
Controlador Nvidia AMI (Amazon Linux 2) propiedad de Deep Learning Base, versión 65.8
Actualizado
Se actualizó el kit de herramientas Nvidia Container de la versión 1.17.0 a la 1.17.3
Fecha de lanzamiento: 9 de noviembre de 2020
Nombres AMI
Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 67.9
Controlador Nvidia AMI (Amazon Linux 2) propiedad de Deep Learning Base, versión 65.6
Actualizado
Fecha de lanzamiento: 2024-10-22
Nombres AMI
Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 67.7
Controlador Nvidia AMI (Amazon Linux 2) propiedad de Deep Learning Base, versión 65.4
Actualizado
Se actualizó el controlador de Nvidia de la versión 550.90.07 a la 550.127.05 para adaptarlo a lo indicado en el boletín de seguridad de las pantallas de CVEs GPU de NVIDIA de octubre de 2024
Fecha de lanzamiento: 3 de octubre de 2024
Nombres AMI
Versión AMI del controlador Nvidia (Amazon Linux 2) de Deep Learning Base OSS
Controlador Nvidia (Amazon Linux 2) (AMI) patentado por Deep Learning Base, versión 65.2
Actualizado
Fecha de lanzamiento: 27 de agosto de 2020
Nombre de la AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versión 67.0
Actualizado
-
Se actualizaron el controlador Nvidia y Fabric Manager de la versión 535.183.01 a la 550.90.07
Según las recomendaciones de Nvidia, se eliminó el requisito de shell multiusuario de Fabric Manager
Se actualizó la versión EFA de 1.32.0 a 1.34.0
-
Se actualizó el NCCL a la última versión 2.22.3 para todas las versiones de CUDA
CUDA 12.1 y 12.2 se actualizaron desde la versión 2.18.5+ 2 CUDA12
CUDA 12.3 se actualizó desde la versión 2.21.5+ 4. CUDA12
Added
Se agregó la versión 12.4 del kit de herramientas CUDA en el directorio/-12.4 usr/local/cuda
Se agregó soporte para instancias P5e. EC2
Eliminaciones
Se ha eliminado la pila de la versión 11.8 del CUDA Toolkit presente en el directorio/-11.8 usr/local/cuda
Fecha de lanzamiento: 19 de agosto de 2020
Nombre de la AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versión 66.3
Added
Se agregó soporte para instancias G6e EC2 .
Fecha de lanzamiento: 6 de junio de 2020
Nombres AMI
Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 65.4
Controlador Nvidia AMI (Amazon Linux 2) patentado por Deep Learning Base, versión 63.9
Actualizado
Se actualizó la versión del controlador Nvidia a 535.183.01 desde 535.161.08
Fecha de lanzamiento: 2024-05-02
Nombres AMI
Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 64.7
Controlador Nvidia AMI (Amazon Linux 2) patentado por Deep Learning Base, versión 63.2
Actualizado
Se actualizó la versión EFA de la versión 1.30 a la versión 1.32
Se actualizó el complemento AWS OFI NCCL de la versión 1.7.4 a la versión 1.9.1
Se actualizó el kit de herramientas de contenedores de Nvidia de la versión 1.13.5 a la versión 1.15.0
Added
-
Se agregó una pila CUDA12 3.3 con CUDA12 0.3, NCCL 2.21.5, CuDNN 8.97.
La versión 1.15.0 NO incluye los paquetes ni nvidia-docker2. nvidia-container-runtime Se recomienda utilizar los nvidia-container-toolkit paquetes directamente siguiendo la documentación del kit de herramientas para contenedores de Nvidia.
Eliminaciones
Se eliminaron las pilas CUDA11 .7, CUDA12 .0 presentes en/-12.0 usr/local/cuda-11.7 and /usr/local/cuda
Se eliminaron el paquete nvidia-docker2 y su comando nvidia-docker como parte de la actualización del kit de herramientas de contenedores de Nvidia de la 1.13.5 a la 1.15.0, que NO incluye los paquetes ni nvidia-docker2. nvidia-container-runtime
Fecha de lanzamiento: 4 de abril de 2020
Nombre de la AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versión 64.0
Added
Para el controlador OSS Nvidia DLAMIs, se agregó compatibilidad con las instancias G6 y EC2 Gr6
Fecha de lanzamiento: 29 de marzo de 2020
Nombres AMI
Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 62.3
Controlador Nvidia AMI (Amazon Linux 2) patentado por Deep Learning Base, versión 63.2
Actualizado
Se actualizó el controlador Nvidia de 535.104.12 a 535.161.08 tanto en el controlador Nvidia propietario como en el controlador OSS. DLAMIs
-
Las nuevas instancias compatibles para cada DLAMI son las siguientes:
El aprendizaje profundo con el controlador patentado de Nvidia es compatible con G3 (no se admite G3.16x), P3 y P3dn
Aprendizaje profundo con OSS El controlador Nvidia es compatible con G4dn, G5, P4d, P4de, P5.
Eliminaciones
Se eliminó la compatibilidad con las EC2 instancias G4dn, G5 y G3.16x del controlador DLAMI patentado de Nvidia.
Fecha de lanzamiento: 20 de marzo de 2020
Nombre de la AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versión 63.1
Added
Se agregó awscliv2 en la AMI como/usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/awsen la AMI del controlador Nvidia OSS
Fecha de lanzamiento: 13 de marzo de 2020
Nombre de la AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versión 63.0
Actualizado
-
El controlador OSS Nvidia DLAMI actualizado con soporte para G4dn y G5, según su soporte actual, se ve a continuación:
El controlador Nvidia AMI (Amazon Linux 2) patentado por Deep Learning Base es compatible con P3, P3dn, G3, G4dn y G5.
El controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) es compatible con G4dn, G5, P4 y P5.
Se recomienda utilizar el controlador DLAMIs OSS Nvidia para G4dn, G5, P4, P5.
Fecha de lanzamiento: 13/02/2020
Nombres AMI
Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 62.1
Controlador Nvidia AMI (Amazon Linux 2) propiedad de Deep Learning Base, versión 62.1
Actualizado
Se actualizó el controlador OSS Nvidia de 535.129.03 a 535.154.05
Se actualizó el EFA de la versión 1.29.0 a la 1.30.0
Se actualizó el AWS OFI NCCL de la versión 1.7.3-aws a la 1.7.4-aws
Fecha de lanzamiento: 2024-02-01
Nombre de la AMI: Controlador Nvidia (Amazon Linux 2) propiedad de Deep Learning Base, versión 62.0
Seguridad
Versión 61.4
Nombre de la AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versión 61.4
Actualizado
El controlador OSS Nvidia se actualizó de 535.104.12 a 535.129.03
Versión 61.0
Nombre de la AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versión 61.4
Actualizado
La EFA se actualizó de la 1.26.1 a la 1.29.0
GDRCopy actualizado de 2.3 a 2.4
Added
-
AWS La AMI de aprendizaje profundo (DLAMI) se divide en dos grupos separados:
DLAMI que utiliza el controlador propietario de Nvidia (compatible con P3, P3dn, G3, G5, G4dn).
DLAMI que usa el controlador OSS de Nvidia para habilitar EFA (para admitir P4, P5).
Consulte el anuncio público para obtener más información sobre la división de DLAMI.
Para AWS CLI consultas, consulta el identificador AMI-ID de consulta con viñetas AWSCLI (por ejemplo, la región es us-east-1)
Versión 60.6
Nombre de la AMI: AMI de Deep Learning Base (Amazon Linux 2) versión 60.6
Actualizado
AWS El complemento OFI NCCL se actualizó de la versión 1.7.2 a la versión 1.7.3
Se actualizaron los directorios CUDA 12.0-12.1 con la versión 2.18.5 de NCCL
-
CUDA12.1 actualizado como versión CUDA predeterminada
Se actualizó LD_LIBRARY_PATH para que tuviera//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
Para los clientes que deseen cambiar a una versión de CUDA diferente, defina las variables LD_LIBRARY_PATH y PATH en consecuencia.
Added
La aplicación de parches en vivo del kernel ahora está habilitada. La aplicación de parches en tiempo real permite a los clientes aplicar parches para vulnerabilidades de seguridad y errores críticos a un núcleo de Linux en ejecución, sin reinicios ni interrupciones en las aplicaciones en ejecución. Tenga en cuenta que el soporte de parches en tiempo real para el kernel 5.10.192 finalizará el 30 de noviembre de 2013.
Versión 60.5
Nombre de la AMI: AMI de Deep Learning Base (Amazon Linux 2) versión 60.5
Actualizado
El controlador NVIDIA se actualizó de 535.54.03 a 535.104.12
Este último controlador corrige los cambios importantes en la ABI de NVML encontrados en el controlador 535.54.03, así como la regresión del controlador encontrada en el controlador 535.86.10 que afectaba a los kits de herramientas CUDA en las instancias P5. Consulte las siguientes notas de la versión de NVIDIA para obtener más información sobre las correcciones:
Se actualizaron los directorios CUDA 12.2 con NCCL 2.18.5
EFA se actualizó de la versión 1.24.1 a la última versión de la versión 1.26.1
Added
Añadido 0.2 a/-12.2 CUDA12 usr/local/cuda
Eliminaciones
Se eliminó el soporte para CUDA 11.5 y CUDA 11.6
Versión 60.2
Nombre de la AMI: AMI de Deep Learning Base (Amazon Linux 2) versión 60.2
Actualizado
aws-ofi-ncclEl complemento se actualizó de la v1.7.1 a la v1.7.2
Versión 60.0
Fecha de lanzamiento: 11/08/2020
Added
Esta AMI ahora admite la funcionalidad de entrenamiento de varios nodos en P5 y en todas las instancias compatibles anteriormente EC2
Para las EC2 instancias P5, se recomienda utilizar NCCL 2.18, que se ha agregado a las versiones .0 y .1. CUDA12 CUDA12
Eliminaciones
Se ha eliminado la compatibilidad con la versión 3.5. CUDA11
Versión 59.2
Fecha de lanzamiento: 08-08-2020
Eliminaciones
Se eliminaron CUDA-11.3 y CUDA-11.4
Versión 59.1
Fecha de lanzamiento: 2023-08-03
Actualizado
Se actualizó el complemento AWS OFI NCCL a la versión 1.7.1
-
Por defecto, la PyTorch versión 2.0 es compatible con la versión 11.8 y, para la EC2 instancia P5, se recomienda utilizar >= CUDA11 .8 CUDA11
Se actualizó LD_LIBRARY_PATH para que tuviera//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
Para cualquier versión de cuda diferente, defina LD_LIBRARY_PATH en consecuencia.
Fixed
Se corrigió el problema de carga de paquetes de Nvidia Fabric Manager (FM) mencionado en la fecha de lanzamiento anterior del 19 de julio de 2021.
Versión 58.9
Fecha de lanzamiento: 2019-07-2020
Actualizado
Se actualizó el controlador Nvidia del 525.85.12 al 535.54.03
Se actualizó el instalador de EFA de la 1.22.1 a la 1.24.1
Added
Se agregaron cambios en el estado c para deshabilitar el estado inactivo del procesador configurando el estado c máximo en C1. Este cambio se realiza configurando `intel_idle.max_cstate=1 processor.max_cstate=1` en los argumentos de arranque de Linux del archivo/etc/default/grub
-
AWS EC2 Compatibilidad con instancias P5:
Se agregó compatibilidad con EC2 instancias P5 para flujos de trabajo que utilizan un solo nodo/instancia. En una próxima versión se añadirá la compatibilidad con varios nodos (p. ej., para el entrenamiento con varios nodos) mediante EFA (Elastic Fabric Adapter) y el AWS complemento OFI NCCL.
Utilice CUDA>=11.8 para obtener un rendimiento óptimo.
Problema conocido: el paquete Nvidia Fabric Manager (FM) tarda en cargarse en la P5. Los clientes tienen que esperar de 2 a 3 minutos hasta que se cargue la FM después de lanzar la instancia de P5. Para comprobar si FM está iniciada, ejecuta el comando sudo systemctl is-active nvidia-fabricmanager. Debería volver a activarse antes de iniciar cualquier flujo de trabajo. Esto se solucionará en la próxima versión.
Versión 58.0
Fecha de lanzamiento: 19/05/2020
Eliminaciones
Se ha eliminado la pila CUDA11 0.0-11.2 según la política de soporte mencionada en la sección superior de este documento.
Versión 57.3
Fecha de lanzamiento: 06/04/2020
Added
Se GDRCopy agregó Nvidia 2.3
Versión 56.8
Fecha de lanzamiento: 2023-03-09
Actualizado
Se actualizó el controlador NVIDIA del 515.65.01 al 525.85.12
Added
Se agregó usr/local/cuda cuda-11.8 en/-11.8/
Versión 56.0
Fecha de lanzamiento: 06/12/2022
Actualizado
Se actualizó la versión EFA de 1.17.2 a 1.19.0
Versión 55.0
Fecha de lanzamiento: 04-11-2022
Actualizado
Se actualizó el controlador NVIDIA del 510.47.03 al 515.65.01
Added
Se agregó usr/local/cuda cuda-11.7 en/-11.7/
Versión 54.0
Fecha de lanzamiento: 15-09-2022
Actualizado
Se actualizó la versión EFA de 1.16.0 a 1.17.2
Versión 53.3
Fecha de lanzamiento: 25/05/2022
Actualizado
Actualizado aws-efa-installer a la versión 1.15.2
Se actualizó aws-ofi-nccl a la versión 1.3.0-aws, que incluye la topología de p4de.24xlarge.
Added
Esta versión añade compatibilidad con EC2 las instancias p4de.24xlarge.
Versión 53.0
Fecha de lanzamiento: 28-04-2022
Added
Se agregó Amazon CloudWatch Agent
-
Se agregaron tres servicios de systemd que utilizan archivos json predefinidos disponibles en la rutaopt/aws/amazon-cloudwatch-agent/etc//para configurar las métricas de la GPU con el usuario de Linux cwagent
-
dlami-cloudwatch-agent@minimal
Comandos para habilitar las métricas de la GPU:
sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal
Crea estas métricas:
utilization_gpu
utilization_memory
-
dlami-cloudwatch-agent@partial
Comandos para habilitar las métricas de la GPU:
sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial
Crea estas métricas:
utilization_gpu
,utilization_memory
,memory_total
,memory_used
,memory_free
-
dlami-cloudwatch-agent@all
-
Comandos para habilitar las métricas de la GPU:
sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all
Crea todas las métricas de GPU disponibles
-
-
Versión 52.0
Fecha de lanzamiento: 08-03-2022
Actualizado
Se actualizó la versión de Kernel a la 5.10
Versión 51.0
Fecha de lanzamiento: 04-03-2022
Actualizado
Se actualizó el controlador Nvidia a la 5.10.47.03
Versión 50.0
Fecha de lanzamiento: 17/02/2022
Actualizado
Bloqueados aws-neuron-dkms y a tensorflow-model-server-neuron medida que se actualizan a versiones más recientes que no son compatibles con los paquetes Neuron presentes en AMI
Comandos si el cliente quiere desbloquear el paquete para actualizarlo a la última versión: sudo yum versionlock delete sudo yum versionlock delete aws-neuron-dkms tensorflow-model-server-neuron
Versión 49.0
Fecha de lanzamiento: 13/01/2022
Added
Se agregó la CUDA11 versión 2 con los siguientes componentes:
cuDNN v8.1.1.3
NCCL 2.8.4
CUDA 11.2.2
Actualizado
Se actualizó el enlace simbólico pip a pip3
Obsolescencias
El soporte para el tipo de instancia P2 ha quedado obsoleto
Se dejó de usar python2.7 y se eliminaron los paquetes relacionados con python2.7, como «python-dev», «python-pip» y «python-tk»
Versión 48.0
Fecha de lanzamiento: 27-12-2021
Actualizado
Se eliminó org.apache.ant_1.9.2.v201404171502\ lib\ ant-apache-log 4j.jar de las versiones cuda, ya que no se está utilizando y no supone ningún riesgo para los usuarios que tienen los archivos Log4j. Para obtener más información, consulte https://nvidia.custhelp.com/app/answers/detail/a_id/5294
.
Versión 47.0
Fecha de lanzamiento: 24-11-2021
Actualizado
Se actualizó la EFA a la versión 1.14.1
Versión 46.0
Fecha de lanzamiento: 12/11/2021
Actualizado
Se actualizaron los paquetes de Neuron desde =1.5. aws-neuron-dkms *, =1.5aws-neuron-runtime-base. *, aws-neuron-tools =1.6.* a =2.2. aws-neuron-dkms *, =1.6. aws-neuron-runtime-base *, aws-neuron-tools =2.0.*.
Se eliminó el paquete Neuron aws-neuron-runtime =1.5.*, ya que Neuron ya no tiene un motor de ejecución que funcione como daemon y el motor de ejecución ahora está integrado con el framework como biblioteca.
Versión 45.0
Fecha de lanzamiento: 2021-10-21
Added
Los informes de análisis de seguridad en formato JSON están disponibles en//. opt/aws/dlami/info
Versión 44.0
Fecha de lanzamiento: 08-10-2021
Changed
Por cada instancia que se lance mediante DLAMI, se añadirá la etiqueta aws-dlami-autogenerated-tag "do-not-delete-», que AWS permitirá recopilar información sobre el tipo de instancia, el ID de la instancia, el tipo de DLAMI y el sistema operativo. No se recopila ni se conserva información sobre los comandos utilizados en la DLAMI. No se recopila ni se conserva ninguna otra información sobre la DLAMI. Para excluirte del seguimiento del uso de tu DLAMI, añade una etiqueta a tu instancia de EC2 Amazon durante el lanzamiento. La etiqueta debe usar la clave OPT_OUT_TRACKING con el valor asociado establecido en true. Para obtener más información, consulta Cómo etiquetar tus EC2 recursos de Amazon.
Seguridad
Se actualizó la versión de docker a docker-20.10.7-3
Versión 43.0
Fecha de lanzamiento: 24-08-2021
Changed
Se actualizó el «cuaderno» a la versión «6.4.1».
Versión 42.0
Fecha de lanzamiento: 2021-07-23
Changed
Se actualizó la versión del controlador Nvidia y del administrador Fabric a la 450.142.00.
Versión 41.0
Fecha de lanzamiento: 24-06-2021
Changed
Paquetes de Neuron actualizados según la versión 1.14.0 de Neuron
Versión 40.0
Fecha de lanzamiento: 10/06/2021
Changed
Se actualizó la versión awscli a la 1.19.89
Versión 39.0
Fecha de lanzamiento: 27-05-2021
Seguridad
Se eliminaron los componentes vulnerables de CUDA-10.0 (Visual Profiler, Nsight EE y JRE) de la instalación de CUDA-10.0 (/-10.0). usr/local/cuda
Versión 38.0
Fecha de lanzamiento: 25-05-2021
Changed
Runc actualizado a la última
Versión 37.0
Fecha de lanzamiento: 23-04-2021
Changed
Se actualizó el controlador Nvidia Tesla y la versión Fabric Manager a la 450.119.03.
Versión 36.1
Fecha de lanzamiento: 2021-04-21
Fixed
Se ha corregido un error que ralentizaba la velocidad de lanzamiento de la instancia.
Versión 36.0
Fecha de lanzamiento: 24-03-2021
Added
Se agregó tensorflow-model-server-neuron para respaldar el servicio de modelos neuronales.
Changed
Se actualizó jupyterlab a la versión 3.0.8 para python3.
Fixed
La antigua instalación de OpenMPI enusr/local/mpi caused /opt/amazon/openmpi/bin/mpirun to be linked incorrectly. To fix the link issue, we removed /usr/local/mpi installation, OpenMPI installation in /opt/amazon/openmpi/está disponible.
Elimine la definición duplicada o inexistente de los entornos de shell que ha estado contaminando las variables de entorno del shell, como PATH y LD_LIBRARY_PATH. Como resultado, se han agregado ~/.dlami y/.sh. etc/profile.d/var.sh has been removed, and /etc/profile.d/dlami
Seguridad
Versión 35.0
Fecha de lanzamiento: 08-03-2021
Added
Se agregó la instalación de TensorRT
CUDA 11.0
Versión 34.3
Fecha de lanzamiento: 25-02-2021
Fixed
Se ha corregido un error tipográfico en el MOTD (mensaje del día) que mostraba incorrectamente la versión 34.1.
Versión 34.2
Fecha de lanzamiento: 24-02-2021
Seguridad
Se han parcheado python2 y python3 para CVE-2021-3177
Problema conocido
Hay un error tipográfico en el MOTD (mensaje del día) que mostraba incorrectamente la versión 34.1. Publicaremos la versión 34.3 para solucionar este problema.
Versión 34.0
Fecha de lanzamiento: 09/02/2021
Changed
Se ha fijado pip a la versión 20.3.4 para python2. Esta es la última versión de pip compatible con python2 y python3.5.
Versión 33.0
Fecha de lanzamiento: 19/01/2021
Changed
Se actualizó la versión cuDNN a CUDA11 v8.0.5.39 en las versiones 3.0 y 4.1. CUDA11
Versión 32.0
Fecha de lanzamiento: 2020-12-01
Added
Se agregó CUDA11 .1 con NCCL 2.7.8, cuDNN 8.0.4.30 para la AMI de aprendizaje profundo (Amazon Linux 2), AMI de aprendizaje profundo (Ubuntu 16.04), AMI de aprendizaje profundo (Ubuntu 18.04), AMI de base de aprendizaje profundo (Ubuntu 16.04), AMI de base de aprendizaje profundo (Ubuntu 18.04) y AMI de base de aprendizaje profundo (Amazon Linux 2).
Versión 31.0
Fecha de lanzamiento: 2020-11-02
Changed
Se actualizó el instalador de EFA a la versión 1.10.0.
Se actualizó la versión cuDNN a la v8.0.4.30 para CUDA 11.0.
AWS Se actualizó Neuron a la versión 1.1
Versión 30.0
Fecha de lanzamiento: 2020-10-08
Changed
Se actualizaron las versiones de NVIDIA Driver y Fabric Manager a la versión 450.80.02
Se actualizó NCCL para 2.0 a 2.7.8 pulgadas CUDA11
Fixed
Se ha corregido un problema por el que las instalaciones gestionadas por pip anulaban el paquete Python gestionado por yum. Los ejecutables pip, pip3 y pip3.7 se movieron de/como parte de esta corrección. usr/binto /usr/local/binas
Versión 29.0
Fecha de lanzamiento: 11/09/2020
Changed
Se actualizó el controlador NVIDIA de la versión 450.51.05 a la 450.51.06
Se agregó la versión 450.51.06 de NVIDIA Fabric Manager
Se actualizó EFA a la versión 1.9.4
Versión 28.0
Fecha de lanzamiento: 2020-08-19
Changed
Se agregó la pila CUDA 11.0 con NCCL 2.7.6 y cuDNN 8.0.2.39
Versión 27.0
Fecha de lanzamiento: 07-08-2020
Changed
Se actualizó la EFA de la versión 1.7.1 a la 1.9.3 en/opt/amazon/efa
La versión actualizada de Open MPI de la versión 4.0.3 a la 4.0.4 en '/' usr/local/mpi’. Open MPI at ‘/opt/amazon/openmpi/bin/mpirun sigue en la versión 4.0.3
Se actualizó el controlador NVIDIA de la 440.33.01 a la 450.51.05
Se actualizó la versión NCCL de 2.6.4 a 2.7.6 en 0.2 CUDA1
Versión 26.0
Fecha de lanzamiento: 2020-08-03
Changed
Se actualizó el AWS OFI NCCL a la versión más reciente; consulte aquí para obtener más información.
Se han eliminado Cuda 8.0/9.0/9.2 de la AMI
Fixed
Se ha corregido un error por el que no se podía abrir el archivo de objetos compartidos: libopencv_dnn.so.4.2.
Versión 25.0
Fecha de lanzamiento: 2020-07-19
Changed
La versión de EFA se actualizó a la versión 1.7.1 para admitir la versión NCCL 2.6.4
La versión NCCL se actualizó a la 2.6.4 para CUDA 10.2
La versión awscli se actualizó de 1.16.76 a 1.18.80
La versión boto3 se actualizó de 1.9.72 a 1.14.3
Versión 24.1
Fecha de lanzamiento: 14 de junio de 2020
Changed
Versión de Docker actualizada a 19.03.6
Versión 24.0
Fecha de lanzamiento: 2020-05-20
Changed
Versión de Docker actualizada a 19.03.6
Versión 23.0
Fecha de lanzamiento: 29 de abril de 2020
Changed
Versiones de paquetes de Python actualizadas
Versión 22.0
Fecha de lanzamiento: 04-03-2020
Changed
Se agregó la pila CUDA 10.2
CUDA 10.0 y 10.1 actualizados para las versiones cuDNN y NCCL