AWS AMI GPU basée sur le Deep Learning (Ubuntu 20.04) - AWS Apprentissage profond (deep learning) AMIs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS AMI GPU basée sur le Deep Learning (Ubuntu 20.04)

Avis de rupture de support

  • Ubuntu Linux 20.04 LTS arrivera à la fin de sa période LTS de cinq ans le 31 mai 2025 et ne sera plus pris en charge par son fournisseur. Par conséquent, l'AMI GPU AWS Deep Learning Base (Ubuntu 20.04) ne sera pas mise à jour après le 31 mai 2025. Les versions précédentes continueront d'être disponibles. Veuillez noter que toute AMI publiée publiquement devient obsolète 2 ans EC2 après sa date de création. Reportez-vous à la section Dépréciation d'une EC2 AMI Amazon pour plus d'informations.

  • Pendant 3 mois, jusqu'au 31 août 2025, le support sera fourni uniquement pour les problèmes de fonctionnalité (et non pour les correctifs de sécurité).

  • Les utilisateurs d'Ubuntu 20.04 DLAMI doivent passer AWS à l'AMI GPU Deep Learning Base (Ubuntu 22.04) ou à l'AMI GPU AWS Deep Learning Base (Ubuntu 24.04). L'AMI AWS Deep Learning Base (Amazon Linux 2023) peut également être utilisée.

Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.

Format du nom de l'AMI

  • AMI GPU du pilote Nvidia OSS basé sur le Deep Learning (Ubuntu 20.04) $ {YYYY-MM-DD}

  • AMI GPU propriétaire Nvidia basée sur le Deep Learning Base (Ubuntu 20.04) $ {YYYY-MM-DD}

EC2 Instances prises en charge

  • Reportez-vous à la section Modifications importantes apportées au DLAMI.

  • Apprentissage profond avec OSS Le pilote Nvidia est compatible avec G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en

  • Le Deep Learning avec pilote propriétaire Nvidia prend en charge les formats G3 (G3.16x non pris en charge), P3, P3dn

L'AMI inclut les éléments suivants :

  • AWS Service pris en charge : Amazon EC2

  • Système d'exploitation : Ubuntu 20.04

  • Architecture de calcul : x86

  • La dernière version disponible est installée pour les packages suivants :

    • Noyau Linux 5.15

    • FSx Lustre

    • Docker

    • AWS CLI v2 à/usr/local/bin/aws2 et AWS CLI v1 à/usr/bin/aws

    • NVIDIA DCGM

    • Boîte à outils pour conteneurs Nvidia :

      • Commande de version : nvidia-container-cli -V

    • NVidia-Docker 2 :

      • Commande de version : nvidia-docker version

  • Pilote NVIDIA :

    • Pilote OSS Nvidia : 550.163.01

    • Pilote Nvidia propriétaire : 550.163.01

  • Stack NVIDIA CUDA 11.7, 12.1-12.4 :

    • Répertoires d'installation CUDA, NCCL et CudDN :/-xx.x/ usr/local/cuda

      • Exemple :/usr/local/cuda-12.1/

    • Version NCCL compilée : 2.22.3+ 2.4 CUDA12

    • CUDA par défaut : 12.1

      • PATH/usr/local/cudapointe vers CUDA 12.1

      • Mise à jour des variables d'environnement ci-dessous :

        • LD_LIBRARY_PATH à avoir/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • CHEMIN à avoir/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/

        • Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.

    • Lieu des tests du NCCL :

      • all_reduce, all_gather et reduce_scatter :/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

      • Pour exécuter des tests NCCL, LD_LIBRARY_PATH doit réussir avec les mises à jour ci-dessous.

        • PATHs Des éléments communs sont déjà ajoutés à LD_LIBRARY_PATH :

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.

  • Installateur EFA : 1.39.0

  • Nvidia GDRCopy : 2,4

  • AWS Plugin OFI NCCL : installé dans le cadre du programme d'installation EFA AWS

    • AWS OFI NCCL prend désormais en charge plusieurs versions NCCL avec une seule version

    • Le chemin d'installation :/opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/libest ajouté à LD_LIBRARY_PATH.

    • Teste le chemin de la sonnerie, message_transfer :/opt/aws-ofi-nccl/tests

  • Type de volume EBS : GP3

  • Python :/ usr/bin/python 3.9

  • NVMe Emplacement du magasin d'instances (sur les EC2 instances prises en charge) :/opt/dlami/nvme

  • Requête AMI-ID avec le paramètre SSM (exemple : la région est us-east-1) :

    • Pilote OSS Nvidia :

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
    • Pilote Nvidia propriétaire :

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Interrogez l'AMI-ID avec AWSCLI (par exemple, la région est us-east-1) :

    • Pilote OSS Nvidia :

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • Pilote Nvidia propriétaire :

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Avis

Boîte à outils NVIDIA Container 1.17.4

Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.

Mises à jour EFA de 1.37 à 1.38 (sortie le 04/02/2025)

EFA intègre désormais le plugin AWS OFI NCCL, qui se trouve désormais dans/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si vous mettez à jour votre variable LD_LIBRARY_PATH, assurez-vous de modifier correctement l'emplacement NCCL de votre OFI.

Politique de support

Les composants de cette AMI, tels que les versions CUDA, peuvent être supprimés et modifiés en fonction de la politique de support du framework ou pour optimiser les performances des conteneurs de deep learning ou pour réduire la taille de l'AMI dans une future version, sans préavis. Nous supprimons les versions CUDA AMIs si elles ne sont utilisées par aucune version du framework prise en charge.

EC2 instances avec plusieurs cartes réseau
  • De nombreux types d’instances compatibles avec EFA possèdent également plusieurs cartes réseau.

  • DeviceIndex est unique à chaque carte réseau et doit être un entier non négatif inférieur à la limite de ENIs par. NetworkCard Sur P5, le nombre de ENIs par NetworkCard est 2, ce qui signifie que les seules valeurs valides pour DeviceIndex sont 0 ou 1.

    • Pour l'interface réseau principale (index de carte réseau 0, indice de périphérique 0), créez une interface EFA (EFA avec ENA). Vous ne pouvez pas utiliser une interface réseau uniquement EFA comme interface réseau principale.

    • Pour chaque interface réseau supplémentaire, utilisez le prochain index de carte réseau inutilisé, l'index de périphérique 1, et une interface réseau EFA (EFA avec ENA) ou EFA uniquement, selon votre cas d'utilisation, comme les exigences en bande passante ENA ou l'espace d'adressage IP. Pour des exemples de cas d'utilisation, consultez la section Configuration EFA pour une instance P5.

    • Pour plus d'informations, consultez le guide EFA ici.

Instances P5/P5e
  • Les instances P5 et P5e contiennent 32 cartes d'interface réseau et peuvent être lancées à l'aide de la commande suivante : AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instances P5en
  • Le P5en contient 16 cartes d'interface réseau et peut être lancé à l'aide de la commande suivante : AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Noyau
  • La version du noyau est épinglée à l'aide de la commande :

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • Nous recommandons aux utilisateurs d'éviter de mettre à jour la version de leur noyau (sauf en cas de correctif de sécurité) afin de garantir la compatibilité avec les pilotes installés et les versions de package. Si les utilisateurs souhaitent toujours effectuer la mise à jour, ils peuvent exécuter les commandes suivantes pour déconnecter leur version du noyau :

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • Pour chaque nouvelle version de DLAMI, le dernier noyau compatible disponible est utilisé.

Date de sortie : 2025-04-24

Noms des AMI
  • Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20250424

  • AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20250424

Mis à jour
  • Mise à niveau du pilote Nvidia de la version 550.144.03 à la version 550.163.01 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA d'avril 2025

Date de sortie : 2025-02-17

Noms des AMI
  • Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20250214

  • AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20250214

Mis à jour
  • Mise à jour de NVIDIA Container Toolkit de la version 1.17.3 à la version 1.17.4

    • Consultez la page des notes de publication ici pour plus d'informations : https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4

    • Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.

Supprimé

Date de sortie : 2025-02-04

Noms des AMI
  • Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20250204

  • AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20250204

Mis à jour
  • Version EFA mise à niveau de 1.37.0 à 1.38.0

    • EFA intègre désormais le plugin AWS OFI NCCL, qui se trouve désormais dans/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si vous mettez à jour votre variable LD_LIBRARY_PATH, assurez-vous de modifier correctement l'emplacement NCCL de votre OFI.

Supprimé

Date de sortie : 2025-01-17

Noms des AMI
  • Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20250117

  • AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20250117

Mis à jour
  • Mise à niveau du pilote Nvidia de la version 550.127.05 à la version 550.144.03 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA de janvier 2025

Date de sortie : 2024-12-09

Noms des AMI
  • Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20241206

  • AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20241206

Mis à jour
  • Mise à niveau de Nvidia Container Toolkit de la version 1.17.0 à la version 1.17.3

Date de sortie : 2024-11-22

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241122

Ajouté
  • Ajout du support pour les instances P5en. EC2

Mis à jour
  • Mise à niveau du programme d'installation d'EFA de la version 1.35.0 à la version 1.37.0

  • Mise à niveau du plugin AWS OFI NCCL de la version 1.12.1-aws à la version 1.13.0-aws

Date de sortie : 2024-10-26

Noms des AMI
  • Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20241025

  • AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20241025

Mis à jour
  • Mise à niveau du pilote Nvidia de la version 550.90.07 à la version 550.127.05 pour corriger un problème CVEs présent dans le bulletin de sécurité d'affichage des GPU NVIDIA d'octobre 2024

Date de sortie : 2024-10-03

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240927

Mis à jour
  • Mise à niveau de Nvidia Container Toolkit de la version 1.16.1 à la version 1.16.2

Date de sortie : 2024-08-27

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240827

Mis à jour
  • Mise à niveau du pilote Nvidia et du Fabric Manager de la version 535.183.01 à la version 550.90.07

  • Version EFA mise à niveau de la version 1.32.0 à la version 1.34.0

  • Mise à niveau de NCCL vers la dernière version 2.22.3 pour toutes les versions de CUDA

    • CUDA 11.7 a été mis à niveau depuis la version 2.16.2+ 7. CUDA11

    • CUDA 12.1, 12.2 mis à jour à partir de 2.18.5+ 2 CUDA12

    • CUDA 12.3 mis à jour depuis la version 2.21.5+ 4 CUDA12

Ajouté
  • Ajout de la version 12.4 du kit d'outils CUDA dans le répertoire/-12.4 usr/local/cuda

  • Ajout du support pour l' EC2 instance P5e.

Supprimé
  • Suppression de la pile de la version 11.8 du kit d'outils CUDA présente dans le répertoire/-11.8 usr/local/cuda

Date de sortie : 2024-08-19

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240816

Ajouté

Date de sortie : 2024-06-06

Noms des AMI
  • Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20240606

  • AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20240606

Mis à jour
  • Version du pilote Nvidia mise à jour vers 535.183.01 à partir de 535.161.08

Date de sortie : 2024-05-15

Noms des AMI
  • Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20240515

  • AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20240515

Ajouté
  • Ajout d'une pile CUDA11 .7 dans le répertoire//usr/local/cuda-11.7 avec CUDA11 .7, NCCL 2.16.2, cuDNN 8.7.0 car 1.13 supporte .7 PyTorch CUDA11

Date de sortie : 2024-05-02

Noms des AMI
  • Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20240502

  • AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20240502

Mis à jour
Ajouté
  • Ajout d'une pile CUDA12 .3 avec CUDA12 .3, NCCL 2.21.5, cuDNN 8.9.7

Supprimé

Date de sortie : 2024-04-04

Noms des AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240404

Ajouté
  • Pour le pilote OSS Nvidia DLAMIs, ajout du support des EC2 instances G6 et Gr6. Reportez-vous à la section Instances de GPU recommandées pour plus d'informations.

Date de sortie : 2024-03-29

Noms des AMI
  • Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20240326

  • AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20240326

Mis à jour
  • Mise à jour du pilote Nvidia de 535.104.12 à 535.161.08 dans le pilote Nvidia propriétaire et OSS. DLAMIs

  • Suppression de la prise en charge des EC2 instances G4dn et G5 par le pilote propriétaire Nvidia DLAMI.

  • Les nouvelles instances prises en charge pour chaque DLAMI sont les suivantes :

    • Le Deep Learning avec pilote propriétaire Nvidia prend en charge les formats G3 (G3.16x non pris en charge), P3, P3dn

    • Apprentissage profond avec OSS Le pilote Nvidia est compatible avec G4dn, G5, P4d, P4de, P5.

Date de sortie : 2024-03-20

Noms des AMI
  • Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20240318

  • AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20240318

Ajouté
  • Ajouté awscliv2 dans l'AMI à/usr/local/bin/aws2, à côté awscliv1 de/usr/bin/awson Proprietary et OSS Nvidia Driver AMI

Date de sortie : 2024-03-14

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240314

Mis à jour
  • Pilote OSS Nvidia DLAMI mis à jour avec support G4dn et G5. Sur cette base, le support actuel ressemble à ce qui suit :

    • L'AMI du pilote Nvidia propriétaire de Deep Learning Base (Ubuntu 20.04) prend en charge les formats P3, P3dn, G3, G5 et G4dn.

    • L'AMI du pilote Nvidia Deep Learning Base OSS (Ubuntu 20.04) prend en charge les formats G5, G4dn, P4 et P5.

  • Il est recommandé d'utiliser le pilote DLAMIs OSS Nvidia pour G5, G4dn, P4, P5.

Date de sortie : 2024-02-12

Noms des AMI
  • Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20240208

  • AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20240208

Mis à jour
  • AWS Le plugin OFI NCCL est mis à jour de 1.7.3 à 1.7.4

Date de sortie : 2024-02-01

Noms des AMI
  • Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20240201

  • AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20240201

Sécurité

Date de sortie : 2023-12-04

Noms des AMI
  • Pilote graphique Nvidia basé sur le Deep Learning Base OSS (Ubuntu 20.04) 20231204

  • AMI GPU propriétaire du pilote Nvidia Deep Learning Base (Ubuntu 20.04) 20231204

Ajouté
  • AWS L'AMI d'apprentissage profond (DLAMI) est divisée en deux groupes distincts :

    • DLAMI utilisant le pilote propriétaire Nvidia (compatible avec P3, P3dn, G3, G5, G4dn).

    • DLAMI qui utilise le pilote Nvidia OSS pour activer EFA (compatible avec P4, P5).

  • Reportez-vous à la section Modifications importantes apportées au DLAMI pour plus d'informations sur le fractionnement du DLAMI.

  • AWS CLI les requêtes ci-dessus se trouvent sous forme de bullet point Query AMI-ID avec AWSCLI (par exemple, la région est us-east-1)

Mis à jour
  • EFA mis à jour de 1.26.1 à 1.29.0

  • GDRCopy mis à jour de 2.3 à 2.4

Date de sortie : 2023-10-18

Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20231018

Mis à jour
  • AWS Plugin OFI NCCL mis à jour de la version 1.7.2 à la version 1.7.3

  • Répertoires CUDA 12.0-12.1 mis à jour avec la version 2.18.5 de NCCL pour correspondre à CUDA 12.2

  • CUDA12.1 mise à jour en tant que version CUDA par défaut

    • LD_LIBRARY_PATH a été mis à jour pour avoir//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin

    • Pour les clients qui souhaitent passer à une autre version de CUDA, veuillez définir les variables LD_LIBRARY_PATH et PATH en conséquence.

Date de sortie : 2023-10-02

Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20231002

Mis à jour
  • Mise à jour du pilote NVIDIA de 535.54.03 à 535.104.12

    • Ce dernier pilote corrige les modifications majeures de l'ABI NVML trouvées dans la version 535.54.03 du pilote, ainsi que la régression du pilote trouvée dans la version 535.86.10 qui affectait les boîtes à outils CUDA sur les instances P5. Consultez les notes de mise à jour suivantes de NVIDIA pour plus de détails sur les correctifs :

    • Consultez les notes de mise à jour suivantes de NVIDIA pour plus de détails sur les correctifs :

      • 4235941 - Correctif de modification révolutionnaire de l'ABI NVML

      • 4228552 - Correction d'erreur du kit d'outils CUDA

  • Répertoires CUDA 12.2 mis à jour avec NCCL 2.18.5

  • EFA mis à jour de la version 1.24.1 à la dernière version 1.26.1

Ajouté
  • Ajouté CUDA12 2.2 à/usr/local/cuda-12.2

Supprimé
  • Suppression du support pour CUDA 11.5 et CUDA 11.6

Date de sortie : 2023-09-26

Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20230926

Ajouté
  • Ajout de modifications au schéma net.naming-scheme pour corriger le problème imprévisible de dénomination de l'interface réseau (lien) observé sur P5. Cette modification est effectuée en définissant net.naming-scheme=v247 dans les arguments de démarrage de Linux dans le fichier/etc/default/grub

Date de sortie : 2023-08-30

Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20230830

Mis à jour
  • aws-ofi-ncclPlugin mis à jour de la v1.7.1 à la v1.7.2

Date de sortie : 2023-08-11

Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20230811

Ajouté
  • Cette AMI prend désormais en charge les fonctionnalités d'entraînement à nœuds multiples sur P5 et sur toutes les instances précédemment EC2 prises en charge.

  • Pour les EC2 instances P5, il est recommandé d'utiliser NCCL 2.18 et a été ajouté à CUDA12 .0 et .1. CUDA12

Supprimé
  • Suppression du support pour les CUDA11 versions 1.3 et CUDA11 4.4.

Date de sortie : 2023-08-04

Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20230804

Mis à jour
  • Plugin AWS OFI NCCL mis à jour vers la version v1.7.1

  • Fabriqué en CUDA11 .8 par défaut car PyTorch 2.0 supporte 11.8 et pour les EC2 instances P5, il est recommandé d'utiliser >= .8 CUDA11

    • LD_LIBRARY_PATH a été mis à jour pour avoir//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin

    • Pour toute version différente de cuda, veuillez définir LD_LIBRARY_PATH en conséquence.

  • Répertoires CUDA 12.0 et 12.1 mis à jour avec NCCL 2.18.3

Fixe
  • Correction du problème de chargement du package Nvidia Fabric Manager (FM) mentionné lors de la date de sortie antérieure du 19/07/2023.

Date de sortie : 2023-07-19

Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20230719

Mis à jour
  • EFA mis à jour de 1.22.1 à 1.24.1

  • Le pilote Nvidia a été mis à jour de 525.85.12 à 535.54.03

Ajouté
  • Ajout de modifications de l'état C pour désactiver l'état inactif du processeur en réglant l'état C maximal sur C1. Cette modification est effectuée en définissant `intel_idle.max_cstate=1 processor.max_cstate=1` dans les arguments de démarrage de Linux dans le fichier/etc/default/grub

  • AWS EC2 Support des instances P5 :

    • Ajout de la prise en charge des EC2 instances P5 pour les flux de travail utilisant un seul nœud ou une seule instance. La prise en charge de plusieurs nœuds (par exemple pour l'entraînement multi-nœuds) à l'aide d'EFA (Elastic Fabric Adapter) et du plug-in AWS OFI NCCL sera ajoutée dans une prochaine version.

    • Veuillez utiliser CUDA>=11.8 pour des performances optimales.

    • Problème connu : le chargement du package Nvidia Fabric Manager (FM) prend du temps sur P5. Les clients doivent attendre 2 à 3 minutes avant le chargement de la FM après le lancement de l'instance P5. Pour vérifier si FM est démarré, exécutez la commande sudo systemctl is-active nvidia-fabricmanager, elle devrait redevenir active avant de démarrer un flux de travail. Cela sera amélioré dans la prochaine version.

Date de sortie : 2023-05-19

Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20230519

Mis à jour
  • EFA mis à jour vers la dernière version 1.22.1

  • Version NCCL mise à jour pour CUDA 12.1 à 2.17.1

Ajouté
  • Ajouté CUDA12 .1 à/usr/local/cuda-12.1

  • Ajout de la prise en charge du moniteur GPU NVIDIA Data Center (DCGM) via le package datacenter-gpu-manager

    • Vous pouvez vérifier l'état de ce service à l'aide de la requête suivante : sudo systemctl status nvidia-dcgm

  • Les magasins d' NVMe instances éphémères sont désormais automatiquement montés sur les EC2 instances prises en charge et le stockage est accessible dans le dossier//. opt/dlami/nvme Vous pouvez vérifier ou modifier ce service de la manière suivante :

    • Vérifiez l'état du NVMe service : sudo systemctl status dlami-nvme

    • Pour accéder au service ou le modifier :/opt/aws/dlami/bin/nvme_ephemeral_drives.sh

  • NVMe volumes fournissait les solutions de stockage les plus rapides et les plus efficaces pour les flux de travail à haut débit nécessitant des performances d'IOPS. Les magasins d' NVMe instances éphémères sont inclus dans le coût des instances. Ce service n'entraîne donc aucun coût supplémentaire.

  • NVMe les magasins d'instances ne seront montés que sur les EC2 instances qui les prennent en charge. Pour plus d'informations sur les EC2 instances dont les magasins d'instances sont NVMe pris en charge, consultez la section Volumes de stockage d'instance disponibles et validez que ceux-ci NVMe sont pris en charge.

  • Pour améliorer les performances du disque et réduire les pénalités liées à la première écriture, vous pouvez initialiser les magasins d'instances (attention, ce processus peut prendre des heures selon le type d' EC2 instance). Initialisez les volumes de stockage d'instance sur les instances EC2

  • REMARQUE : les magasins d' NVMe instance sont montés sur l'instance et ne sont pas connectés au réseau comme EBS. Les données de ces NVMe volumes peuvent être perdues lors du redémarrage ou de l'arrêt de votre instance.

Date de sortie : 2023-04-17

Nom de l'AMI : AMI GPU de base pour le Deep Learning (Ubuntu 20.04) 20230414

Mis à jour
  • Nom DLAMI mis à jour AWS de Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) $ {YYYY-MM-DD} vers l'AMI GPU Deep Learning Base (Ubuntu 20.04) $ {YYYY-MM-DD}

    • Veuillez noter que nous prendrons en charge le dernier DLAMI portant l'ancien nom d'AMI pendant un mois à compter de cette version pour toute assistance nécessaire. Les clients peuvent mettre à jour leurs packages de système d'exploitation apt-get update & apt-get upgrade pour utiliser les correctifs de sécurité.

  • Chemin du plugin AWS OFI NCCL mis à jour depuis/-ofi-nccl/ usr/local/cuda-xx.x/efa/ to /opt/aws

  • Mise à jour de NCCL vers une branche GIT personnalisée de la version 2.16.2, co-écrite par AWS une équipe du NCCL pour toutes les versions de CUDA. Il fonctionne mieux sur AWS l'infrastructure.

Ajouté
  • Ajouté CUDA12 .0 à/usr/local/cuda-12.0

  • Ajout de AWS FSx.

  • Ajout du support pour la version 3.9 de Python dans/usr/bin/python3.9

    • Notez que cette modification ne remplace pas le système Python par défaut, python3 pointera toujours le système Python3.8.

    • Python3.9 est accessible à l'aide des commandes suivantes :

      /usr/bin/python3.9 python3.9
Supprimé

Date de sortie : 05.05-25

Nom de l'AMI : AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) 20220523

Mis à jour
  • Cette version ajoute le support pour la nouvelle EC2 instance p4de.24xlarge.

    • Mise à jour aws-efa-installer vers version 1.15.2

    • Mise à jour aws-ofi-nccl vers la version 1.3.0-aws qui inclut la topologie pour p4de.24xlarge.

Date de sortie : 03-03-25

Nom de l'AMI : AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) 20220325

Mis à jour
  • Version EFA mise à jour de 1.15.0 à 1.15.1

Date de sortie : 03-03-17

Nom de l'AMI : AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) 20220323

Ajouté
  • Première publication