

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# AWS GPU AMI PyTorch 2.4 pour apprentissage profond (Ubuntu 22.04)
<a name="aws-deep-learning-ami-gpu-pytorch-2.4-ubuntu-22-04"></a>

Pour obtenir de l'aide pour démarrer, consultez[Commencer à utiliser le DLAMI](getting-started.md).

#### Format du nom de l'AMI
<a name="name-gpu-pytorch-2.4-ubuntu-22-04"></a>
+ Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4. $ {PATCH\_VERSION} (Ubuntu 22.04) $ {} YYYY-MM-DD

#### Instances EC2 prises en charge
<a name="instances-gpu-pytorch-2.4-ubuntu-22-04"></a>
+ Reportez-vous à la section [Modifications importantes apportées au DLAMI](important-changes.md).
+ Apprentissage profond avec OSS Le pilote Nvidia prend en charge les modèles G4dn, G5, G6, Gr6, P4, P4de, P5, P5e, P5en.

#### L'AMI inclut les éléments suivants :
<a name="contents-gpu-pytorch-2.4-ubuntu-22-04"></a>
+ ** AWS Service pris en charge** : EC2
+ **Système d'exploitation** : Ubuntu 22.04
+ **Architecture de calcul** : x86
+ **Python** :/opt/conda/envs/pytorch/bin/python
+ **Pilote NVIDIA** :
  + Pilote OSS Nvidia : 550.144.03
+ ** CUDA12.1 Stack NVIDIA** :
  + Chemin d'installation de CUDA, NCCL et CudDN ://cuda-12.4/ usr/local
  + **CUDA par défaut :** 12.4
    + PATH/usr/local/cuda pointe vers//cuda-12.4/ usr/local
    + Mise à jour des variables d'environnement ci-dessous :
      +  LD\_LIBRARY\_PATH doit avoir//://cuda/lib:/usr/local/cuda://usr/localcuda/lib64/x86\_64- usr/local usr/local cuda/targets linux/lib
      + CHEMIN à avoir/usr/local/cuda/bin/:/usr/local/cuda/include/
  + Version NCCL du système compilé présente à l'adresse usr/local /cuda/ : 2.21.5
  + PyTorch Version NCCL compilée à partir de l'environnement PyTorch conda : 2.20.5
+  **Lieu des tests NCCL :** 
  + all\_reduce, all\_gather et reduce\_scatter ://cuda-xx. usr/local x/efa/test-cuda-xx.x/
  + Pour exécuter des tests NCCL, LD\_LIBRARY\_PATH est déjà mis à jour avec les chemins nécessaires.
    + Des chemins communs sont déjà ajoutés à LD\_LIBRARY\_PATH :
      +  `/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib`
  + LD\_LIBRARY\_PATH est mis à jour avec les chemins de version CUDA
    +  //cuda/lib:usr/local//:/usr/local/cuda usr/local cuda/lib64 :///x86\_64- usr/local cud/targets linux/lib
+ **Programme d’installation d’EFA :** 1.34.0
+ **Nvidia GDRCopy** : 2.4.1
+ **Moteur Nvidia Transformer : v1.11.0**
+ **AWS Plugin OFI NCCL** : est installé dans le cadre du `EFA Installer-aws`
  + **Chemin d'installation :**`/opt/aws-ofi-nccl/`. `/opt/aws-ofi-nccl/lib`Le chemin est ajouté à LD\_LIBRARY\_PATH.
  + **Teste le chemin** de la sonnerie, message\_transfer : `/opt/aws-ofi-nccl/tests`
  + Remarque : le PyTorch package est également livré avec un plugin AWS OFI NCCL lié dynamiquement en tant que `aws-ofi-nccl-dlc` package conda et PyTorch utilisera ce package au lieu du système AWS OFI NCCL.
+ **AWS CLI v2** as `aws2` et **AWS CLI v1** as `aws`
+ **Type de volume EBS : GP3**
+ **Version de Python :** 3.11
+  **Requête AMI-ID avec le paramètre SSM (exemple, la région est us-east-1) :** 
  +  **Pilote OSS Nvidia :** 

    ```
    aws ssm get-parameter --region {{us-east-1}} \
            --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.4-ubuntu-22.04/latest/ami-id \
            --query "Parameter.Value" \
            --output text
    ```
+  **Requête AMI-ID avec AWSCLI (exemple : la région est us-east-1) :** 
  +  **Pilote OSS Nvidia :** 

    ```
    aws ec2 describe-images --region {{us-east-1}} \
        --owners amazon \
        --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \
        --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
        --output text
    ```

#### Notifications
<a name="notices-gpu-pytorch-2.4-ubuntu-22-04"></a>

**P5/P5e instances**
+ DeviceIndex est unique à chacun NetworkCard et doit être un entier non négatif inférieur à la limite d'ENI par. NetworkCard Sur P5, le nombre d'ENI par NetworkCard est de 2, ce qui signifie que les seules valeurs valides pour DeviceIndex sont 0 ou 1. Vous trouverez ci-dessous un exemple de commande de lancement d'instance EC2 P5 utilisant awscli, affiché NetworkCardIndex du numéro 0 à 31, 0 pour la première interface et DeviceIndex 1 pour les interfaces 31 DeviceIndex restantes.

```
aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      ...
      "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
```

#### Date de sortie : 2025-02-17
<a name="2025-02-17-gpu-pytorch-2.4-ubuntu-22-04"></a>

**Nom de l'AMI :** Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250216

##### Mis à jour
<a name="w2aac25c13b7c27c13b5"></a>
+ Mise à jour de NVIDIA Container Toolkit de la version 1.17.3 à la version 1.17.4
  + Consultez la page des notes de publication ici pour plus d'informations : [https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4](https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4)
  + Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD\_LIBRARY\_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel [Si vous](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat) utilisez une couche de compatibilité CUDA.

#### Date de sortie : 2025-01-21
<a name="2025-01-21-gpu-pytorch-2.4-ubuntu-22-04"></a>

**Nom de l'AMI :** Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250119

##### Mis à jour
<a name="w2aac25c13b7c27c15b5"></a>
+ Mise à niveau du pilote Nvidia de la version 550.127.05 à la version 550.144.03 afin de remédier aux problèmes CVE présents dans le bulletin de sécurité des pilotes d'affichage pour [GPU NVIDIA](https://nvidia.custhelp.com/app/answers/detail/a_id/5614) de janvier 2025.

#### Date de sortie : 2024-11-18
<a name="2024-11-18-gpu-pytorch-2.4-ubuntu-22-04"></a>

**Nom de l'AMI :** Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241116

##### Fixe
<a name="w2aac25c13b7c27c17b5"></a>
+ En raison d'une modification apportée au noyau Ubuntu pour corriger un défaut de la fonctionnalité KASLR (Kernel Address Space Layout Randomization), les G4Dn/G5 instances ne peuvent pas initialiser correctement CUDA sur le pilote OSS Nvidia. Afin d'atténuer ce problème, ce DLAMI inclut une fonctionnalité qui charge dynamiquement le pilote propriétaire pour les instances G4Dn et G5. Veuillez prévoir une brève période d'initialisation pour ce chargement afin de garantir le bon fonctionnement de vos instances.
  + Pour vérifier l'état et l'intégrité de ce service, vous pouvez utiliser les commandes suivantes :

```
sudo systemctl is-active dynamic_driver_load.service active
```

#### Date de sortie : 2024-10-16
<a name="2024-10-16-gpu-pytorch-2.4-ubuntu-22-04"></a>

**Nom de l'AMI** : Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241016

##### Ajouté
<a name="w2aac25c13b7c27c19b5"></a>
+ Ajout de la TransformerEngine version Nvidia v1.11.0 pour accélérer les modèles Transformer (pour plus de détails, veuillez vous référer à) [https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/index.html](https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/index.html)

#### Date de sortie : 2024-09-30
<a name="2024-09-30-gpu-pytorch-2.4-ubuntu-22-04"></a>

**Nom de l'AMI** : Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240929

##### Mis à jour
<a name="w2aac25c13b7c27c21b5"></a>
+ Mise à niveau de Nvidia Container Toolkit de la version 1.16.1 à la version 1.16.2 pour corriger la faille de sécurité. [CVE-2024-0133](https://nvd.nist.gov/vuln/detail/CVE-2024-0133)

#### Date de sortie : 2024-09-26
<a name="2024-09-26-gpu-pytorch-2.4-ubuntu-22-04"></a>

**Nom de l'AMI** : Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240925

##### Ajouté
<a name="w2aac25c13b7c27c23b5"></a>
+ Version initiale de la série de GPU AMI Deep Learning PyTorch 2.4.1 (Ubuntu 22.04). Y compris un environnement Conda Pytorch complété par le pilote NVIDIA R550, CUDA=12.4.1, CUDNN=8.9.7, NCCL=2.20,5 et EFA=1.34.0. PyTorch 