

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# AWS GPU AMI PyTorch 2.4 de aprendizaje profundo (Ubuntu 22.04)
<a name="aws-deep-learning-ami-gpu-pytorch-2.4-ubuntu-22-04"></a>

Para obtener ayuda para comenzar, consulte [Introducción a las DLAMI](getting-started.md).

#### Formato de nombre de AMI
<a name="name-gpu-pytorch-2.4-ubuntu-22-04"></a>
+ Controlador Nvidia AMI GPU PyTorch 2.4 de Deep Learning OSS $ {PATCH\_VERSION} (Ubuntu 22.04) $ {} YYYY-MM-DD

#### Instancias de EC2 admitidas
<a name="instances-gpu-pytorch-2.4-ubuntu-22-04"></a>
+ Consulte [Cambios importantes en las DLAMI](important-changes.md).
+ El aprendizaje profundo con el controlador NVIDIA de código abierto admite G4dn, G5, G6, Gr6, P4, P4de, P5, P5e y P5en.

#### La AMI incluye lo siguiente:
<a name="contents-gpu-pytorch-2.4-ubuntu-22-04"></a>
+ **Servicio compatible: EC2 AWS **
+ **Sistema operativo**: Ubuntu 22.04
+ **Arquitectura de computación**: x86
+ **Python**:/opt/conda/envs/pytorch/bin/python
+ **Controlador de NVIDIA**:
  + Controlador con software de código abierto de NVIDIA: 550.144.03
+ Pila ** CUDA12.1 de NVIDIA**:
  + Ruta de instalación de CUDA, NCCL y CUDDN://cuda-12.4/ usr/local
  + **CUDA predeterminado**: 12.4
    + usr/localPATH/usr/local/cuda apunta a//cuda-12.4/
    + Se han actualizado las siguientes variables de entorno:
      +  LD\_LIBRARY\_PATH debe tener//://cuda:///x86\_64- usr/local cuda/lib usr/local cuda/lib64 usr/local usr/local cuda/targets linux/lib
      + PATH para tenerusr/local/cuda/bincuda/include/usr/local:///
  + Sistema compilado (versión NCCL) presente en//usr/local/cuda/: 2.21.5
  + PyTorch Versión NCCL compilada del entorno conda: 2.20.5 PyTorch 
+  **Ubicación de las pruebas de NCCL:** 
  + all\_reduce, all\_gather y reduce\_scatter://cuda-xx. usr/local x/efa/prueba-cuda-xx.x/
  + Para ejecutar las pruebas de NCCL, LD\_LIBRARY\_PATH ya se ha actualizado con las rutas necesarias.
    + Los PATH comunes ya están agregados a LD\_LIBRARY\_PATH:
      +  `/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib`
  + LD\_LIBRARY\_PATH se ha actualizado con las rutas de la versión de CUDA
    +  /:/:/:/usr/localcuda/lib/cuda:/ /x86\_64- usr/local cuda/lib64 usr/local usr/local cud/targets linux/lib
+ **Instalador** de EFA: 1.34.0
+ **NVIDIA GDRCopy**: 2.4.1
+ **NVIDIA Transformer Engine**: v1.11.0
+ **AWS Plugin OFI NCCL**: se instala como parte del `EFA Installer-aws`
  + **Ruta de instalación**:. `/opt/aws-ofi-nccl/` `/opt/aws-ofi-nccl/lib`La ruta se agrega a LD\_LIBRARY\_PATH.
  + **Comprueba la ruta** del anillo, message\_transfer: `/opt/aws-ofi-nccl/tests`
  + Nota: el PyTorch paquete también viene con el complemento AWS OFI NCCL vinculado dinámicamente como paquete conda y PyTorch utilizará ese `aws-ofi-nccl-dlc` paquete en lugar del OFI NCCL del sistema. AWS 
+ **AWS CLI **v2 como y v1 como `aws2`AWS CLI **** `aws`
+ **Tipo de volumen EBS**: gp3
+ **Versión de Python:** 3.11
+  **Consulta AMI-ID con el parámetro SSM (la región de ejemplo es us-east-1):** 
  +  **Controlador NVIDIA de código abierto**: 

    ```
    aws ssm get-parameter --region {{us-east-1}} \
            --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.4-ubuntu-22.04/latest/ami-id \
            --query "Parameter.Value" \
            --output text
    ```
+  **Consulte AMI-ID con AWSCLI (la región de ejemplo es us-east-1):** 
  +  **Controlador con software de código abierto de NVIDIA:** 

    ```
    aws ec2 describe-images --region {{us-east-1}} \
        --owners amazon \
        --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \
        --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
        --output text
    ```

#### ​Avisos
<a name="notices-gpu-pytorch-2.4-ubuntu-22-04"></a>

**P5/P5e instancias**
+ DeviceIndex es único para cada uno NetworkCard y debe ser un entero no negativo inferior al límite de ENI por. NetworkCard En P5, el número de ENI NetworkCard es 2, lo que significa que los únicos valores válidos son 0 o 1. DeviceIndex A continuación, se muestra un ejemplo del comando de lanzamiento de una instancia EC2 P5 mediante awscli, que se muestra NetworkCardIndex del 0 al 31 y DeviceIndex como 0 para la primera interfaz y DeviceIndex como 1 para las 31 restantes.

```
aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      ...
      "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
```

#### Fecha de lanzamiento: 17/02/2021
<a name="2025-02-17-gpu-pytorch-2.4-ubuntu-22-04"></a>

**Nombre de AMI:** Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250216

##### Actualizado
<a name="w2aac25c13b7c27c13b5"></a>
+ Se ha actualizado el kit de herramientas de contenedores de NVIDIA de la versión 1.17.3 a la versión 1.17.4.
  + Consulte la página de notas de la versión aquí para obtener más información: [https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4](https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4)
  + En la versión 1.17.4 del kit de herramientas de contenedores, el montaje de bibliotecas de compatibilidad con CUDA se ha desactivado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, asegúrese de actualizar su LD\_LIBRARY\_PATH para incluir las bibliotecas de compatibilidad con CUDA, tal y como se muestra en el tutorial [Si utiliza una capa de compatibilidad CUDA.](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat)

#### Fecha de la versión: 21-01-2025
<a name="2025-01-21-gpu-pytorch-2.4-ubuntu-22-04"></a>

**Nombre de AMI:** Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250119

##### Actualizado
<a name="w2aac25c13b7c27c15b5"></a>
+ Se ha actualizado el controlador de NVIDIA de la versión 550.127.05 a la 550.144.03 para corregir los CVE que figuran en el [boletín de seguridad de los controladores de pantalla de GPU de NVIDIA de enero de 2025](https://nvidia.custhelp.com/app/answers/detail/a_id/5614).

#### Fecha de la versión: 18/11/2024
<a name="2024-11-18-gpu-pytorch-2.4-ubuntu-22-04"></a>

**Nombre de AMI:** Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241116

##### Fixed
<a name="w2aac25c13b7c27c17b5"></a>
+ Debido a un cambio en el núcleo de Ubuntu para corregir un defecto en la funcionalidad de aleatorización del diseño del espacio de direcciones del núcleo (KASLR), las G4Dn/G5 instancias no pueden inicializar CUDA correctamente en el controlador Nvidia del OSS. Para mitigar este problema, esta DLAMI incluye una funcionalidad que carga dinámicamente el controlador propietario para las instancias G4Dn y G5. Espere un breve período de inicialización para que se realice esta carga y así garantizar que sus instancias funcionen correctamente.
  + Puede utilizar los siguientes comandos para comprobar el estado y la condición del servicio:

```
sudo systemctl is-active dynamic_driver_load.service active
```

#### Fecha de la versión: 16/10/2024
<a name="2024-10-16-gpu-pytorch-2.4-ubuntu-22-04"></a>

**Nombre de AMI**: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241016

##### Added
<a name="w2aac25c13b7c27c19b5"></a>
+ Se agregó la TransformerEngine versión 1.11.0 de Nvidia para acelerar los modelos Transformer (para obtener más información, consulte) [https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/index.html](https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/index.html)

#### Fecha de la versión: 30/09/2024
<a name="2024-09-30-gpu-pytorch-2.4-ubuntu-22-04"></a>

**Nombre de AMI**: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240929

##### Actualizado
<a name="w2aac25c13b7c27c21b5"></a>
+ Se actualizó el kit de herramientas Nvidia Container de la versión 1.16.1 a la 1.16.2 para corregir la vulnerabilidad de seguridad. [CVE-2024-0133](https://nvd.nist.gov/vuln/detail/CVE-2024-0133)

#### Fecha de la versión: 26/09/2024
<a name="2024-09-26-gpu-pytorch-2.4-ubuntu-22-04"></a>

**Nombre de AMI**: Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240925

##### Added
<a name="w2aac25c13b7c27c23b5"></a>
+ Versión inicial de la serie Deep Learning AMI GPU PyTorch 2.4.1 (Ubuntu 22.04). Incluye un entorno conda pytorch complementado con el controlador NVIDIA R550, CUDA=12.4.1, CUDNN=8.9.7, NCCL=2.20.5 y EFA=1.34.0. PyTorch 