AWS AMI de Deep Learning Base (Amazon Linux 2) - AWS Deep Learning AMIs
Formato de nombre AMIInstancias compatibles EC2 Contenido de AMI​AvisosFecha de lanzamiento: 22 de abril de 2020Fecha de lanzamiento: 17 de febrero de 2021Fecha de lanzamiento: 4 de febrero de 2020Fecha de lanzamiento: 17 de enero de 2020Fecha de lanzamiento: 6 de enero de 2020Fecha de lanzamiento: 9 de diciembre de 2020Fecha de lanzamiento: 9 de noviembre de 2020Fecha de lanzamiento: 2024-10-22Fecha de lanzamiento: 3 de octubre de 2024Fecha de lanzamiento: 27 de agosto de 2020Fecha de lanzamiento: 19 de agosto de 2020Fecha de lanzamiento: 6 de junio de 2020Fecha de lanzamiento: 2024-05-02Fecha de lanzamiento: 4 de abril de 2020Fecha de lanzamiento: 29 de marzo de 2020Fecha de lanzamiento: 20 de marzo de 2020Fecha de lanzamiento: 13 de marzo de 2020Fecha de lanzamiento: 13/02/2020Fecha de lanzamiento: 2024-02-01Versión 61.4Versión 61.0Versión 60.6Versión 60.5Versión 60.2Versión 60.0Versión 59.2Versión 59.1Versión 58.9Versión 58.0Versión 57.3Versión 56.8Versión 56.0Versión 55.0Versión 54.0Versión 53.3Versión 53.0Versión 52.0Versión 51.0Versión 50.0Versión 49.0Versión 48.0Versión 47.0Versión 46.0Versión 45.0Versión 44.0Versión 43.0Versión 42.0Versión 41.0Versión 40.0Versión 39.0Versión 38.0Versión 37.0Versión 36.1Versión 36.0Versión 35.0Versión 34.3Versión 34.2Versión 34.0Versión 33.0Versión 32.0Versión 31.0Versión 30.0Versión 29.0Versión 28.0Versión 27.0Versión 26.0Versión 25.0Versión 24.1Versión 24.0Versión 23.0Versión 22.0

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS AMI de Deep Learning Base (Amazon Linux 2)

Si necesita ayuda para empezar, consulteIntroducción a las DLAMI.

Formato de nombre AMI

  • Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión $ {XX.X}

  • Controlador Nvidia AMI (Amazon Linux 2) propiedad de Deep Learning Base, versión $ {XX.X}

Instancias compatibles EC2

  • Consulte Cambios importantes en la DLAMI.

  • Aprendizaje profundo con OSS El controlador Nvidia es compatible con G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en

  • El aprendizaje profundo con el controlador patentado de Nvidia es compatible con G3 (no compatible con G3.16x), P3 y P3dn

La AMI incluye lo siguiente:

  • AWS Servicio compatible: Amazon EC2

  • Sistema operativo: Amazon Linux 2

  • Arquitectura de cómputo: x86

  • La última versión disponible está instalada para los siguientes paquetes:

    • Núcleo de Linux: 5.10

    • Docker

    • AWS CLI v2 en/usr/local/bin/aws2 y AWS CLI v1 en/usr/bin/aws

    • Kit de herramientas de contenedores Nvidia:

      • Comando de versión: -V nvidia-container-cli

    • Nvidia-Docker2:

      • Comando de versión: versión nvidia-docker

  • Python:/usr/bin/python3.7

  • Controlador NVIDIA:

    • Controlador OSS Nvidia: 550.163.01

    • Controlador Nvidia patentado: 550.163.01

  • Pila NVIDIA CUDA 12.1-12.4:

    • Directorios de instalación de CUDA, NCCL y CUDDN:/-xx.x/ usr/local/cuda

    • CUDA predeterminado: 12.1

      • PATH/usr/local/cudaapunta a CUDA 12.1

      • Se actualizó a continuación las siguientes variables de entorno:

        • LD_LIBRARY_PATH tendrá/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • PATH para tener//usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include

        • Para cualquier versión de CUDA diferente, actualice LD_LIBRARY_PATH en consecuencia.

    • Versión NCCL compilada: 2.22.3

    • Ubicación de las pruebas de la NCCL:

      • all_reduce, all_gather y reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

      • Para ejecutar las pruebas de la NCCL, LD_LIBRARY_PATH debe pasar las siguientes actualizaciones.

        • Las más comunes ya están añadidas a LD_LIBRARY_PATH: PATHs

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • Para cualquier versión de CUDA diferente, actualice LD_LIBRARY_PATH en consecuencia.

  • Instalador de EFA: 1.38.0

  • Nvidia: 2.4 GDRCopy

  • AWS PARA NCCL: 1.13.2

    • AWS OFI NCCL ahora admite múltiples versiones de NCCL con una sola versión

    • Ruta de instalación:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib64 se agrega a LD_LIBRARY_PATH.

  • Tipo de volumen de EBS: gp3

  • Consulte el AMI-ID con el parámetro SSM (la región de ejemplo es us-east-1):

    • Controlador OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-amazon-linux-2/latest/ami-id  \ --query "Parameter.Value" \ --output text
    • Controlador Nvidia patentado:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Consulta el AMI-ID con AWSCLI (por ejemplo, la región es us-east-1):

    • Controlador OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • Controlador Nvidia patentado:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

​Avisos

Kit de herramientas NVIDIA Container 1.17.4

En la versión 1.17.4 del Container Toolkit, el montaje de bibliotecas compatibles con CUDA ahora está deshabilitado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, asegúrese de actualizar su LD_LIBRARY_PATH para incluir las bibliotecas de compatibilidad con CUDA, tal y como se muestra en el tutorial sobre si utiliza una capa de compatibilidad CUDA.

La EFA se actualiza de la versión 1.37 a la 1.38 (publicada el 4 de febrero de 2020)

EFA ahora incluye el complemento AWS OFI NCCL, que ahora se encuentra en/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si va a actualizar la variable LD_LIBRARY_PATH, asegúrese de modificar correctamente la ubicación de su OFI NCCL.

Política de Support

Estos AMIs componentes de esta AMI, como las versiones de CUDA, pueden eliminarse y modificarse en función de la política de soporte del marco o para optimizar el rendimiento de los contenedores de aprendizaje profundo o para reducir el tamaño de la AMI en una versión futura, sin previo aviso. Eliminamos las versiones de CUDA AMIs si no se utilizan en ninguna versión de marco compatible.

EC2 instancias con varias tarjetas de red
  • Muchos tipos de instancias que admiten EFA también tienen varias tarjetas de red.

  • DeviceIndex es único para cada tarjeta de red y debe ser un número entero no negativo inferior al límite de ENIs per. NetworkCard En P5, el número de ENIs per NetworkCard es 2, lo que significa que los únicos valores válidos DeviceIndex son 0 o 1.

    • Para la interfaz de red principal (índice de tarjeta de red 0, índice de dispositivo 0), cree una interfaz EFA (EFA con ENA). No puede utilizar una interfaz de red exclusiva para EFA como interfaz de red principal.

    • Para cada interfaz de red adicional, utilice el siguiente índice de tarjetas de red no utilizado, el índice de dispositivos 1, y una interfaz de red EFA (EFA con ENA) o solo EFA, según el caso de uso, como los requisitos de ancho de banda de la ENA o el espacio de direcciones IP. Para ver ejemplos de casos de uso, consulte Configuración de EFA para instancias P5.

    • Para obtener más información, consulte la Guía de EFA aquí.

Instancias P5/P5e
  • Las instancias P5 y P5e contienen 32 tarjetas de interfaz de red y se pueden lanzar mediante el siguiente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Las instancias P5en
  • Las P5en contienen 16 tarjetas de interfaz de red y se pueden iniciar mediante el siguiente comando: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • La versión del núcleo se fija mediante el comando:

    sudo yum versionlock kernel*
  • Recomendamos a los usuarios que eviten actualizar su versión del núcleo (a menos que sea debido a un parche de seguridad) para garantizar la compatibilidad con los controladores y las versiones de los paquetes instalados. Si los usuarios aún desean actualizar, pueden ejecutar los siguientes comandos para desbloquear sus versiones del núcleo:

    sudo yum versionlock delete kernel* sudo yum update -y
  • Para cada nueva versión de DLAMI, se utiliza el último núcleo compatible disponible.

Fecha de lanzamiento: 22 de abril de 2020

Nombres AMI
  • Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 69.3

  • Controlador Nvidia (Amazon Linux 2) (AMI) patentado por Deep Learning Base, versión 67.0

Actualizado

  • Se actualizó el controlador Nvidia de la versión 550.144.03 a la 550.163.01 para adaptarlo a lo indicado en el boletín de seguridad del controlador de pantalla de CVEs GPU de NVIDIA de abril de 2025

Fecha de lanzamiento: 17 de febrero de 2021

Nombres AMI
  • Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 68.5

  • Controlador Nvidia AMI (Amazon Linux 2) propiedad de Deep Learning Base, versión 66.3

Actualizado

Eliminaciones

  • Se eliminaron las bibliotecas de espacio de usuario cuobj y nvdisasm proporcionadas por el kit de herramientas CUDA de NVIDIA para abordar las CVEs presentes en el boletín de seguridad del kit de herramientas NVIDIA CUDA del 18 de febrero de 2025

Fecha de lanzamiento: 4 de febrero de 2020

Nombres AMI
  • Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 68.4

  • Controlador Nvidia AMI (Amazon Linux 2) propiedad de Deep Learning Base, versión 66.1

Actualizado

  • Se actualizó la versión EFA de la 1.37.0 a la 1.38.0

Fecha de lanzamiento: 17 de enero de 2020

Nombres AMI
  • Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 68.3

  • Controlador Nvidia AMI (Amazon Linux 2) propiedad de Deep Learning Base, versión 66.0

Actualizado

  • Se actualizó el controlador Nvidia de la versión 550.127.05 a la 550.144.03 para adaptarlo a lo indicado en el boletín de seguridad del controlador de CVEs pantalla de GPU de NVIDIA de enero de 2025

Fecha de lanzamiento: 6 de enero de 2020

Nombres AMI
  • Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 68.2

  • Controlador Nvidia AMI (Amazon Linux 2) patentado por Deep Learning Base, versión 65.9

Actualizado

  • Se actualizó el EFA de la versión 1.34.0 a la 1.37.0

  • Se actualizó el AWS OFI NCCL de la versión 1.11.0 a la 1.13.0

Fecha de lanzamiento: 9 de diciembre de 2020

Nombres AMI
  • Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 68.1

  • Controlador Nvidia AMI (Amazon Linux 2) propiedad de Deep Learning Base, versión 65.8

Actualizado

  • Se actualizó el kit de herramientas Nvidia Container de la versión 1.17.0 a la 1.17.3

Fecha de lanzamiento: 9 de noviembre de 2020

Nombres AMI
  • Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 67.9

  • Controlador Nvidia AMI (Amazon Linux 2) propiedad de Deep Learning Base, versión 65.6

Actualizado

Fecha de lanzamiento: 2024-10-22

Nombres AMI
  • Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 67.7

  • Controlador Nvidia AMI (Amazon Linux 2) propiedad de Deep Learning Base, versión 65.4

Actualizado

  • Se actualizó el controlador de Nvidia de la versión 550.90.07 a la 550.127.05 para adaptarlo a lo indicado en el boletín de seguridad de las pantallas de CVEs GPU de NVIDIA de octubre de 2024

Fecha de lanzamiento: 3 de octubre de 2024

Nombres AMI
  • Versión AMI del controlador Nvidia (Amazon Linux 2) de Deep Learning Base OSS

  • Controlador Nvidia (Amazon Linux 2) (AMI) patentado por Deep Learning Base, versión 65.2

Actualizado

Fecha de lanzamiento: 27 de agosto de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versión 67.0

Actualizado

  • Se actualizaron el controlador Nvidia y Fabric Manager de la versión 535.183.01 a la 550.90.07

  • Se actualizó la versión EFA de 1.32.0 a 1.34.0

  • Se actualizó el NCCL a la última versión 2.22.3 para todas las versiones de CUDA

    • CUDA 12.1 y 12.2 se actualizaron desde la versión 2.18.5+ 2 CUDA12

    • CUDA 12.3 se actualizó desde la versión 2.21.5+ 4. CUDA12

Added

  • Se agregó la versión 12.4 del kit de herramientas CUDA en el directorio/-12.4 usr/local/cuda

  • Se agregó soporte para instancias P5e. EC2

Eliminaciones

  • Se ha eliminado la pila de la versión 11.8 del CUDA Toolkit presente en el directorio/-11.8 usr/local/cuda

Fecha de lanzamiento: 19 de agosto de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versión 66.3

Added

  • Se agregó soporte para instancias G6e EC2 .

Fecha de lanzamiento: 6 de junio de 2020

Nombres AMI
  • Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 65.4

  • Controlador Nvidia AMI (Amazon Linux 2) patentado por Deep Learning Base, versión 63.9

Actualizado

  • Se actualizó la versión del controlador Nvidia a 535.183.01 desde 535.161.08

Fecha de lanzamiento: 2024-05-02

Nombres AMI
  • Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 64.7

  • Controlador Nvidia AMI (Amazon Linux 2) patentado por Deep Learning Base, versión 63.2

Actualizado

  • Se actualizó la versión EFA de la versión 1.30 a la versión 1.32

  • Se actualizó el complemento AWS OFI NCCL de la versión 1.7.4 a la versión 1.9.1

  • Se actualizó el kit de herramientas de contenedores de Nvidia de la versión 1.13.5 a la versión 1.15.0

Added

Eliminaciones

  • Se eliminaron las pilas CUDA11 .7, CUDA12 .0 presentes en/-12.0 usr/local/cuda-11.7 and /usr/local/cuda

  • Se eliminaron el paquete nvidia-docker2 y su comando nvidia-docker como parte de la actualización del kit de herramientas de contenedores de Nvidia de la 1.13.5 a la 1.15.0, que NO incluye los paquetes ni nvidia-docker2. nvidia-container-runtime

Fecha de lanzamiento: 4 de abril de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versión 64.0

Added

  • Para el controlador OSS Nvidia DLAMIs, se agregó compatibilidad con las instancias G6 y EC2 Gr6

Fecha de lanzamiento: 29 de marzo de 2020

Nombres AMI
  • Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 62.3

  • Controlador Nvidia AMI (Amazon Linux 2) patentado por Deep Learning Base, versión 63.2

Actualizado

  • Se actualizó el controlador Nvidia de 535.104.12 a 535.161.08 tanto en el controlador Nvidia propietario como en el controlador OSS. DLAMIs

  • Las nuevas instancias compatibles para cada DLAMI son las siguientes:

    • El aprendizaje profundo con el controlador patentado de Nvidia es compatible con G3 (no se admite G3.16x), P3 y P3dn

    • Aprendizaje profundo con OSS El controlador Nvidia es compatible con G4dn, G5, P4d, P4de, P5.

Eliminaciones

  • Se eliminó la compatibilidad con las EC2 instancias G4dn, G5 y G3.16x del controlador DLAMI patentado de Nvidia.

Fecha de lanzamiento: 20 de marzo de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versión 63.1

Added

  • Se agregó awscliv2 en la AMI como/usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/awsen la AMI del controlador Nvidia OSS

Fecha de lanzamiento: 13 de marzo de 2020

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versión 63.0

Actualizado

  • El controlador OSS Nvidia DLAMI actualizado con soporte para G4dn y G5, según su soporte actual, se ve a continuación:

    • El controlador Nvidia AMI (Amazon Linux 2) patentado por Deep Learning Base es compatible con P3, P3dn, G3, G4dn y G5.

    • El controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) es compatible con G4dn, G5, P4 y P5.

  • Se recomienda utilizar el controlador DLAMIs OSS Nvidia para G4dn, G5, P4, P5.

Fecha de lanzamiento: 13/02/2020

Nombres AMI
  • Controlador Nvidia AMI de Deep Learning Base OSS (Amazon Linux 2) versión 62.1

  • Controlador Nvidia AMI (Amazon Linux 2) propiedad de Deep Learning Base, versión 62.1

Actualizado

  • Se actualizó el controlador OSS Nvidia de 535.129.03 a 535.154.05

  • Se actualizó el EFA de la versión 1.29.0 a la 1.30.0

  • Se actualizó el AWS OFI NCCL de la versión 1.7.3-aws a la 1.7.4-aws

Fecha de lanzamiento: 2024-02-01

Nombre de la AMI: Controlador Nvidia (Amazon Linux 2) propiedad de Deep Learning Base, versión 62.0

Seguridad

Versión 61.4

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versión 61.4

Actualizado

  • El controlador OSS Nvidia se actualizó de 535.104.12 a 535.129.03

Versión 61.0

Nombre de la AMI: Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) versión 61.4

Actualizado

  • La EFA se actualizó de la 1.26.1 a la 1.29.0

  • GDRCopy actualizado de 2.3 a 2.4

Added

  • AWS La AMI de aprendizaje profundo (DLAMI) se divide en dos grupos separados:

    • DLAMI que utiliza el controlador propietario de Nvidia (compatible con P3, P3dn, G3, G5, G4dn).

    • DLAMI que usa el controlador OSS de Nvidia para habilitar EFA (para admitir P4, P5).

  • Consulte el anuncio público para obtener más información sobre la división de DLAMI.

  • Para AWS CLI consultas, consulta el identificador AMI-ID de consulta con viñetas AWSCLI (por ejemplo, la región es us-east-1)

Versión 60.6

Nombre de la AMI: AMI de Deep Learning Base (Amazon Linux 2) versión 60.6

Actualizado

  • AWS El complemento OFI NCCL se actualizó de la versión 1.7.2 a la versión 1.7.3

  • Se actualizaron los directorios CUDA 12.0-12.1 con la versión 2.18.5 de NCCL

  • CUDA12.1 actualizado como versión CUDA predeterminada

    • Se actualizó LD_LIBRARY_PATH para que tuviera//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin

    • Para los clientes que deseen cambiar a una versión de CUDA diferente, defina las variables LD_LIBRARY_PATH y PATH en consecuencia.

Added

  • La aplicación de parches en vivo del kernel ahora está habilitada. La aplicación de parches en tiempo real permite a los clientes aplicar parches para vulnerabilidades de seguridad y errores críticos a un núcleo de Linux en ejecución, sin reinicios ni interrupciones en las aplicaciones en ejecución. Tenga en cuenta que el soporte de parches en tiempo real para el kernel 5.10.192 finalizará el 30 de noviembre de 2013.

Versión 60.5

Nombre de la AMI: AMI de Deep Learning Base (Amazon Linux 2) versión 60.5

Actualizado

  • El controlador NVIDIA se actualizó de 535.54.03 a 535.104.12

    Este último controlador corrige los cambios importantes en la ABI de NVML encontrados en el controlador 535.54.03, así como la regresión del controlador encontrada en el controlador 535.86.10 que afectaba a los kits de herramientas CUDA en las instancias P5. Consulte las siguientes notas de la versión de NVIDIA para obtener más información sobre las correcciones:

    • 4235941 - Corrección de un cambio importante en la ABI de NVML

    • 4228552 - Corrección de errores del kit de herramientas CUDA

  • Se actualizaron los directorios CUDA 12.2 con NCCL 2.18.5

  • EFA se actualizó de la versión 1.24.1 a la última versión de la versión 1.26.1

Added

  • Añadido 0.2 a/-12.2 CUDA12 usr/local/cuda

Eliminaciones

  • Se eliminó el soporte para CUDA 11.5 y CUDA 11.6

Versión 60.2

Nombre de la AMI: AMI de Deep Learning Base (Amazon Linux 2) versión 60.2

Actualizado

  • aws-ofi-ncclEl complemento se actualizó de la v1.7.1 a la v1.7.2

Versión 60.0

Fecha de lanzamiento: 11/08/2020

Added

  • Esta AMI ahora admite la funcionalidad de entrenamiento de varios nodos en P5 y en todas las instancias compatibles anteriormente EC2

  • Para las EC2 instancias P5, se recomienda utilizar NCCL 2.18, que se ha agregado a las versiones .0 y .1. CUDA12 CUDA12

Eliminaciones

  • Se ha eliminado la compatibilidad con la versión 3.5. CUDA11

Versión 59.2

Fecha de lanzamiento: 08-08-2020

Eliminaciones

  • Se eliminaron CUDA-11.3 y CUDA-11.4

Versión 59.1

Fecha de lanzamiento: 2023-08-03

Actualizado

  • Se actualizó el complemento AWS OFI NCCL a la versión 1.7.1

  • Por defecto, la PyTorch versión 2.0 es compatible con la versión 11.8 y, para la EC2 instancia P5, se recomienda utilizar >= CUDA11 .8 CUDA11

    • Se actualizó LD_LIBRARY_PATH para que tuviera//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin

    • Para cualquier versión de cuda diferente, defina LD_LIBRARY_PATH en consecuencia.

Fixed

  • Se corrigió el problema de carga de paquetes de Nvidia Fabric Manager (FM) mencionado en la fecha de lanzamiento anterior del 19 de julio de 2021.

Versión 58.9

Fecha de lanzamiento: 2019-07-2020

Actualizado

  • Se actualizó el controlador Nvidia del 525.85.12 al 535.54.03

  • Se actualizó el instalador de EFA de la 1.22.1 a la 1.24.1

Added

  • Se agregaron cambios en el estado c para deshabilitar el estado inactivo del procesador configurando el estado c máximo en C1. Este cambio se realiza configurando `intel_idle.max_cstate=1 processor.max_cstate=1` en los argumentos de arranque de Linux del archivo/etc/default/grub

  • AWS EC2 Compatibilidad con instancias P5:

    • Se agregó compatibilidad con EC2 instancias P5 para flujos de trabajo que utilizan un solo nodo/instancia. En una próxima versión se añadirá la compatibilidad con varios nodos (p. ej., para el entrenamiento con varios nodos) mediante EFA (Elastic Fabric Adapter) y el AWS complemento OFI NCCL.

    • Utilice CUDA>=11.8 para obtener un rendimiento óptimo.

    • Problema conocido: el paquete Nvidia Fabric Manager (FM) tarda en cargarse en la P5. Los clientes tienen que esperar de 2 a 3 minutos hasta que se cargue la FM después de lanzar la instancia de P5. Para comprobar si FM está iniciada, ejecuta el comando sudo systemctl is-active nvidia-fabricmanager. Debería volver a activarse antes de iniciar cualquier flujo de trabajo. Esto se solucionará en la próxima versión.

Versión 58.0

Fecha de lanzamiento: 19/05/2020

Eliminaciones

  • Se ha eliminado la pila CUDA11 0.0-11.2 según la política de soporte mencionada en la sección superior de este documento.

Versión 57.3

Fecha de lanzamiento: 06/04/2020

Added

  • Se GDRCopy agregó Nvidia 2.3

Versión 56.8

Fecha de lanzamiento: 2023-03-09

Actualizado

  • Se actualizó el controlador NVIDIA del 515.65.01 al 525.85.12

Added

  • Se agregó usr/local/cuda cuda-11.8 en/-11.8/

Versión 56.0

Fecha de lanzamiento: 06/12/2022

Actualizado

  • Se actualizó la versión EFA de 1.17.2 a 1.19.0

Versión 55.0

Fecha de lanzamiento: 04-11-2022

Actualizado

  • Se actualizó el controlador NVIDIA del 510.47.03 al 515.65.01

Added

  • Se agregó usr/local/cuda cuda-11.7 en/-11.7/

Versión 54.0

Fecha de lanzamiento: 15-09-2022

Actualizado

  • Se actualizó la versión EFA de 1.16.0 a 1.17.2

Versión 53.3

Fecha de lanzamiento: 25/05/2022

Actualizado

  • Actualizado aws-efa-installer a la versión 1.15.2

  • Se actualizó aws-ofi-nccl a la versión 1.3.0-aws, que incluye la topología de p4de.24xlarge.

Added

  • Esta versión añade compatibilidad con EC2 las instancias p4de.24xlarge.

Versión 53.0

Fecha de lanzamiento: 28-04-2022

Added

  • Se agregó Amazon CloudWatch Agent

  • Se agregaron tres servicios de systemd que utilizan archivos json predefinidos disponibles en la rutaopt/aws/amazon-cloudwatch-agent/etc//para configurar las métricas de la GPU con el usuario de Linux cwagent

    • dlami-cloudwatch-agent@minimal

      • Comandos para habilitar las métricas de la GPU:

        sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal
      • Crea estas métricas: utilization_gpu utilization_memory

    • dlami-cloudwatch-agent@partial

      • Comandos para habilitar las métricas de la GPU:

        sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial
      • Crea estas métricas:utilization_gpu,utilization_memory,memory_total,memory_used, memory_free

    • dlami-cloudwatch-agent@all

      • Comandos para habilitar las métricas de la GPU:

        sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all
      • Crea todas las métricas de GPU disponibles

Versión 52.0

Fecha de lanzamiento: 08-03-2022

Actualizado

  • Se actualizó la versión de Kernel a la 5.10

Versión 51.0

Fecha de lanzamiento: 04-03-2022

Actualizado

  • Se actualizó el controlador Nvidia a la 5.10.47.03

Versión 50.0

Fecha de lanzamiento: 17/02/2022

Actualizado

  • Bloqueados aws-neuron-dkms y a tensorflow-model-server-neuron medida que se actualizan a versiones más recientes que no son compatibles con los paquetes Neuron presentes en AMI

    • Comandos si el cliente quiere desbloquear el paquete para actualizarlo a la última versión: sudo yum versionlock delete sudo yum versionlock delete aws-neuron-dkms tensorflow-model-server-neuron

Versión 49.0

Fecha de lanzamiento: 13/01/2022

Added

  • Se agregó la CUDA11 versión 2 con los siguientes componentes:

    • cuDNN v8.1.1.3

    • NCCL 2.8.4

    • CUDA 11.2.2

Actualizado

  • Se actualizó el enlace simbólico pip a pip3

Obsolescencias

  • El soporte para el tipo de instancia P2 ha quedado obsoleto

  • Se dejó de usar python2.7 y se eliminaron los paquetes relacionados con python2.7, como «python-dev», «python-pip» y «python-tk»

Versión 48.0

Fecha de lanzamiento: 27-12-2021

Actualizado

  • Se eliminó org.apache.ant_1.9.2.v201404171502\ lib\ ant-apache-log 4j.jar de las versiones cuda, ya que no se está utilizando y no supone ningún riesgo para los usuarios que tienen los archivos Log4j. Para obtener más información, consulte https://nvidia.custhelp.com/app/answers/detail/a_id/5294.

Versión 47.0

Fecha de lanzamiento: 24-11-2021

Actualizado

  • Se actualizó la EFA a la versión 1.14.1

Versión 46.0

Fecha de lanzamiento: 12/11/2021

Actualizado

  • Se actualizaron los paquetes de Neuron desde =1.5. aws-neuron-dkms *, =1.5aws-neuron-runtime-base. *, aws-neuron-tools =1.6.* a =2.2. aws-neuron-dkms *, =1.6. aws-neuron-runtime-base *, aws-neuron-tools =2.0.*.

  • Se eliminó el paquete Neuron aws-neuron-runtime =1.5.*, ya que Neuron ya no tiene un motor de ejecución que funcione como daemon y el motor de ejecución ahora está integrado con el framework como biblioteca.

Versión 45.0

Fecha de lanzamiento: 2021-10-21

Added

  • Los informes de análisis de seguridad en formato JSON están disponibles en//. opt/aws/dlami/info

Versión 44.0

Fecha de lanzamiento: 08-10-2021

Changed

  • Por cada instancia que se lance mediante DLAMI, se añadirá la etiqueta aws-dlami-autogenerated-tag "do-not-delete-», que AWS permitirá recopilar información sobre el tipo de instancia, el ID de la instancia, el tipo de DLAMI y el sistema operativo. No se recopila ni se conserva información sobre los comandos utilizados en la DLAMI. No se recopila ni se conserva ninguna otra información sobre la DLAMI. Para excluirte del seguimiento del uso de tu DLAMI, añade una etiqueta a tu instancia de EC2 Amazon durante el lanzamiento. La etiqueta debe usar la clave OPT_OUT_TRACKING con el valor asociado establecido en true. Para obtener más información, consulta Cómo etiquetar tus EC2 recursos de Amazon.

Seguridad

  • Se actualizó la versión de docker a docker-20.10.7-3

Versión 43.0

Fecha de lanzamiento: 24-08-2021

Changed

  • Se actualizó el «cuaderno» a la versión «6.4.1».

Versión 42.0

Fecha de lanzamiento: 2021-07-23

Changed

  • Se actualizó la versión del controlador Nvidia y del administrador Fabric a la 450.142.00.

Versión 41.0

Fecha de lanzamiento: 24-06-2021

Changed

  • Paquetes de Neuron actualizados según la versión 1.14.0 de Neuron

Versión 40.0

Fecha de lanzamiento: 10/06/2021

Changed

  • Se actualizó la versión awscli a la 1.19.89

Versión 39.0

Fecha de lanzamiento: 27-05-2021

Seguridad

  • Se eliminaron los componentes vulnerables de CUDA-10.0 (Visual Profiler, Nsight EE y JRE) de la instalación de CUDA-10.0 (/-10.0). usr/local/cuda

Versión 38.0

Fecha de lanzamiento: 25-05-2021

Changed

  • Runc actualizado a la última

Versión 37.0

Fecha de lanzamiento: 23-04-2021

Changed

  • Se actualizó el controlador Nvidia Tesla y la versión Fabric Manager a la 450.119.03.

Versión 36.1

Fecha de lanzamiento: 2021-04-21

Fixed

  • Se ha corregido un error que ralentizaba la velocidad de lanzamiento de la instancia.

Versión 36.0

Fecha de lanzamiento: 24-03-2021

Added

  • Se agregó tensorflow-model-server-neuron para respaldar el servicio de modelos neuronales.

Changed

  • Se actualizó jupyterlab a la versión 3.0.8 para python3.

Fixed

  • La antigua instalación de OpenMPI enusr/local/mpi caused /opt/amazon/openmpi/bin/mpirun to be linked incorrectly. To fix the link issue, we removed /usr/local/mpi installation, OpenMPI installation in /opt/amazon/openmpi/está disponible.

  • Elimine la definición duplicada o inexistente de los entornos de shell que ha estado contaminando las variables de entorno del shell, como PATH y LD_LIBRARY_PATH. Como resultado, se han agregado ~/.dlami y/.sh. etc/profile.d/var.sh has been removed, and /etc/profile.d/dlami

Seguridad

Versión 35.0

Fecha de lanzamiento: 08-03-2021

Added

  • Se agregó la instalación de TensorRT CUDA 11.0

Versión 34.3

Fecha de lanzamiento: 25-02-2021

Fixed

  • Se ha corregido un error tipográfico en el MOTD (mensaje del día) que mostraba incorrectamente la versión 34.1.

Versión 34.2

Fecha de lanzamiento: 24-02-2021

Seguridad

  • Se han parcheado python2 y python3 para CVE-2021-3177

Problema conocido

  • Hay un error tipográfico en el MOTD (mensaje del día) que mostraba incorrectamente la versión 34.1. Publicaremos la versión 34.3 para solucionar este problema.

Versión 34.0

Fecha de lanzamiento: 09/02/2021

Changed

  • Se ha fijado pip a la versión 20.3.4 para python2. Esta es la última versión de pip compatible con python2 y python3.5.

Versión 33.0

Fecha de lanzamiento: 19/01/2021

Changed

  • Se actualizó la versión cuDNN a CUDA11 v8.0.5.39 en las versiones 3.0 y 4.1. CUDA11

Versión 32.0

Fecha de lanzamiento: 2020-12-01

Added

  • Se agregó CUDA11 .1 con NCCL 2.7.8, cuDNN 8.0.4.30 para la AMI de aprendizaje profundo (Amazon Linux 2), AMI de aprendizaje profundo (Ubuntu 16.04), AMI de aprendizaje profundo (Ubuntu 18.04), AMI de base de aprendizaje profundo (Ubuntu 16.04), AMI de base de aprendizaje profundo (Ubuntu 18.04) y AMI de base de aprendizaje profundo (Amazon Linux 2).

Versión 31.0

Fecha de lanzamiento: 2020-11-02

Changed

  • Se actualizó el instalador de EFA a la versión 1.10.0.

  • Se actualizó la versión cuDNN a la v8.0.4.30 para CUDA 11.0.

  • AWS Se actualizó Neuron a la versión 1.1

Versión 30.0

Fecha de lanzamiento: 2020-10-08

Changed

  • Se actualizaron las versiones de NVIDIA Driver y Fabric Manager a la versión 450.80.02

  • Se actualizó NCCL para 2.0 a 2.7.8 pulgadas CUDA11

Fixed

  • Se ha corregido un problema por el que las instalaciones gestionadas por pip anulaban el paquete Python gestionado por yum. Los ejecutables pip, pip3 y pip3.7 se movieron de/como parte de esta corrección. usr/binto /usr/local/binas

Versión 29.0

Fecha de lanzamiento: 11/09/2020

Changed

  • Se actualizó el controlador NVIDIA de la versión 450.51.05 a la 450.51.06

  • Se agregó la versión 450.51.06 de NVIDIA Fabric Manager

  • Se actualizó EFA a la versión 1.9.4

Versión 28.0

Fecha de lanzamiento: 2020-08-19

Changed

  • Se agregó la pila CUDA 11.0 con NCCL 2.7.6 y cuDNN 8.0.2.39

Versión 27.0

Fecha de lanzamiento: 07-08-2020

Changed

  • Se actualizó la EFA de la versión 1.7.1 a la 1.9.3 en/opt/amazon/efa

  • La versión actualizada de Open MPI de la versión 4.0.3 a la 4.0.4 en '/' usr/local/mpi’. Open MPI at ‘/opt/amazon/openmpi/bin/mpirun sigue en la versión 4.0.3

  • Se actualizó el controlador NVIDIA de la 440.33.01 a la 450.51.05

  • Se actualizó la versión NCCL de 2.6.4 a 2.7.6 en 0.2 CUDA1

Versión 26.0

Fecha de lanzamiento: 2020-08-03

Changed

Fixed

  • Se ha corregido un error por el que no se podía abrir el archivo de objetos compartidos: libopencv_dnn.so.4.2.

Versión 25.0

Fecha de lanzamiento: 2020-07-19

Changed

  • La versión de EFA se actualizó a la versión 1.7.1 para admitir la versión NCCL 2.6.4

  • La versión NCCL se actualizó a la 2.6.4 para CUDA 10.2

  • La versión awscli se actualizó de 1.16.76 a 1.18.80

  • La versión boto3 se actualizó de 1.9.72 a 1.14.3

Versión 24.1

Fecha de lanzamiento: 14 de junio de 2020

Changed

  • Versión de Docker actualizada a 19.03.6

Versión 24.0

Fecha de lanzamiento: 2020-05-20

Changed

  • Versión de Docker actualizada a 19.03.6

Versión 23.0

Fecha de lanzamiento: 29 de abril de 2020

Changed

  • Versiones de paquetes de Python actualizadas

Versión 22.0

Fecha de lanzamiento: 04-03-2020

Changed

  • Se agregó la pila CUDA 10.2

  • CUDA 10.0 y 10.1 actualizados para las versiones cuDNN y NCCL