Formato de nombre AMI EC2 Instancias compatibles Contenido de AMI Avisos Fecha de lanzamiento: 17 de febrero de 2020 Fecha de lanzamiento: 08-01-2020 Fecha de lanzamiento: 21 de noviembre de 2021

AWS GPU AMI PyTorch 2.5 de aprendizaje profundo (Amazon Linux 2023)

Si necesita ayuda para empezar, consulteIntroducción a las DLAMI.

Formato de nombre AMI

Controlador Nvidia de aprendizaje profundo OSS Nvidia GPU PyTorch 2.5.1 (Amazon Linux 2023) $ {YYY-MM-DD}

EC2 Instancias compatibles

Consulte Cambios importantes en la DLAMI.
Aprendizaje profundo con OSS El controlador Nvidia es compatible con G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en

La AMI incluye lo siguiente:

AWS Servicio compatible: EC2
Sistema operativo: Amazon Linux 2023
Arquitectura de cómputo: x86
Pila NVIDIA CUDA12 4.4:
- Ruta de instalación de CUDA, NCCL y CUDDN:/-12.4/ usr/local/cuda
- CUDA predeterminado: 12.4
  - RUTA/-12.4/ usr/local/cuda points to /usr/local/cuda
  - Actualizado a continuación de las variables de entorno:
    
    LD_LIBRARY_PATH tendrá/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
    PATH para tener//usr/local/cuda/bin/:/usr/local/cuda/include
- Versión NCCL compilada para 12.4:2.21.5
Lugar de las pruebas de la NCCL:
- all_reduce, all_gather y reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
- Para ejecutar las pruebas de NCCL, LD_LIBRARY_PATH ya cuenta con las rutas necesarias actualizadas.
  - Las más comunes ya están añadidas a LD_LIBRARY_PATH: PATHs
    
    /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
- LD_LIBRARY_PATH se actualiza con las rutas de la versión CUDA
  - /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
Instalador de EFA: 1.38.0
Nvidia: 2.4.1 GDRCopy
AWS OFI NCCL: 1.13.2-aws
- AWS OFI NCCL ahora admite múltiples versiones de NCCL con una sola versión
- La ruta de instalación:/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libse agrega a LD_LIBRARY_PATH.
- Comprueba la ruta del anillo, message_transfer:/opt/aws-ofi-nccl/tests
Versión de Python: 3.11
Python:/opt/conda/envs/pytorch/bin/python
Controlador NVIDIA: 560.35.03
AWS CLI v2 en/usr/bin/aws
Tipo de volumen de EBS: gp3
NVMe Ubicación del almacén de instancias (en las EC2 instancias compatibles):/opt/dlami/nvme

Consulte el AMI-ID con el parámetro SSM (la región de ejemplo es us-east-1):

Controlador OSS Nvidia:


aws ssm get-parameter --region us-east-1 \
        --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.5-amazon-linux-2023/latest/ami-id \
        --query "Parameter.Value" \
        --output text

Consulta el AMI-ID con AWSCLI (por ejemplo, la región es us-east-1):

Controlador OSS Nvidia:


aws ec2 describe-images --region us-east-1 \
    --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.? (Amazon Linux 2023) ????????' 'Name=state,Values=available' \
    --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
    --output text

Avisos

Instancias P5/P5e:

DeviceIndex es exclusivo de cada una NetworkCard y debe ser un número entero no negativo inferior al límite de per. ENIs NetworkCard En P5, el número de ENIs per NetworkCard es 2, lo que significa que los únicos valores válidos DeviceIndex son 0 o 1. A continuación, se muestra un ejemplo del comando de lanzamiento de una instancia EC2 P5 que utiliza awscli y se muestra NetworkCardIndex del 0 al 31 y DeviceIndex como 0 para la primera interfaz y DeviceIndex como 1 para las 31 restantes.


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      ...
      "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Kernel

La versión del núcleo se fija mediante el comando:
```
sudo dnf versionlock kernel*
```
Recomendamos a los usuarios que eviten actualizar su versión del núcleo (a menos que se trate de un parche de seguridad) para garantizar la compatibilidad con los controladores y las versiones de los paquetes instalados. Si los usuarios aún desean actualizar, pueden ejecutar los siguientes comandos para desfijar sus versiones del núcleo:
```
sudo dnf versionlock delete kernel*
sudo dnf update -y
```
Para cada nueva versión de DLAMI, se utiliza el último núcleo compatible disponible.

Fecha de lanzamiento: 17 de febrero de 2020

Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250216

Actualizado

Se actualizó el kit de herramientas NVIDIA Container de la versión 1.17.3 a la versión 1.17.4
- Consulte la página de notas de la versión aquí para obtener más información:/1.17.4 https://github.com/NVIDIA/ nvidia-container-toolkit releases/tag/v
- En la versión 1.17.4 del Container Toolkit, el montaje de bibliotecas compatibles con CUDA ahora está deshabilitado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, asegúrese de actualizar su LD_LIBRARY_PATH para incluir las bibliotecas de compatibilidad con CUDA, tal y como se muestra en el tutorial sobre si utiliza una capa de compatibilidad CUDA.

Eliminaciones

Se eliminaron las bibliotecas de espacio de usuario cuobj y nvdisasm proporcionadas por el kit de herramientas CUDA de NVIDIA para abordar las presentes en el boletín de seguridad del kit de herramientas NVIDIA CUDA del 18 de febrero de 2025 CVEs

Fecha de lanzamiento: 08-01-2020

Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250107

Added

Se agregó soporte para instancias de G4dn.

Fecha de lanzamiento: 21 de noviembre de 2021

Nombre de AMI: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20241120

Added

Versión inicial del controlador Nvidia AMI GPU PyTorch 2.5 de Deep Learning OSS para Amazon Linux 2023

Problemas conocidos

Esta DLAMI no admite instancias G4dn y EC2 G5 en este momento. AWS tiene conocimiento de una incompatibilidad que puede provocar errores en la inicialización de CUDA, lo que afecta a las familias de instancias G4dn y G5 cuando se utilizan los controladores NVIDIA de código abierto junto con un núcleo de Linux de versión 6.1 o posterior. Este problema afecta a distribuciones de Linux como Amazon Linux 2023, Ubuntu 22.04 o posterior, o SUSE Linux Enterprise Server 15 SP6 o posterior, entre otras.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

GPU PyTorch 2.6 (Ubuntu 22.04)

GPU PyTorch 2.5 (Ubuntu 22.04)

AWS GPU AMI PyTorch 2.5 de aprendizaje profundo (Amazon Linux 2023)

Formato de nombre AMI

EC2 Instancias compatibles

La AMI incluye lo siguiente:

​Avisos

Kernel

Fecha de lanzamiento: 17 de febrero de 2020

Actualizado

Eliminaciones

Fecha de lanzamiento: 08-01-2020

Added

Fecha de lanzamiento: 21 de noviembre de 2021

Added

Problemas conocidos

Avisos