AWS AMI de base de Deep Learning (Amazon Linux 2) - AWS Apprentissage profond (deep learning) AMIs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS AMI de base de Deep Learning (Amazon Linux 2)

Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.

Format du nom de l'AMI

  • Pilote AMI Nvidia OSS basé sur le Deep Learning Base (Amazon Linux 2) Version $ {XX.X}

  • Version $ {XX.X} du pilote Nvidia propriétaire de Deep Learning Base (Amazon Linux 2)

EC2 Instances prises en charge

  • Reportez-vous à la section Modifications importantes apportées au DLAMI.

  • Apprentissage profond avec OSS Le pilote Nvidia est compatible avec G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en

  • Le Deep Learning avec pilote propriétaire Nvidia prend en charge les formats G3 (G3.16x non pris en charge), P3, P3dn

L'AMI inclut les éléments suivants :

  • AWS Service pris en charge : Amazon EC2

  • Système d'exploitation : Amazon Linux 2

  • Architecture de calcul : x86

  • La dernière version disponible est installée pour les packages suivants :

    • Noyau Linux : 5.10

    • Docker

    • AWS CLI v2 à/usr/local/bin/aws2 et AWS CLI v1 à/usr/bin/aws

    • Boîte à outils pour conteneurs Nvidia :

      • Commande de version : nvidia-container-cli -V

    • NVidia-Docker 2 :

      • Commande de version : nvidia-docker version

  • Python :/ usr/bin/python 3.7

  • Pilote NVIDIA :

    • Pilote OSS Nvidia : 550.163.01

    • Pilote Nvidia propriétaire : 550.163.01

  • Stack NVIDIA CUDA 12.1-12.4 :

    • Répertoires d'installation CUDA, NCCL et CudDN :/-xx.x/ usr/local/cuda

    • CUDA par défaut : 12.1

      • PATH/usr/local/cudapointe vers CUDA 12.1

      • Mise à jour des variables d'environnement ci-dessous :

        • LD_LIBRARY_PATH à avoir/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • CHEMIN à avoir/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/

        • Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.

    • Version NCCL compilée : 2.22.3

    • Lieu des tests du NCCL :

      • all_reduce, all_gather et reduce_scatter :/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

      • Pour exécuter des tests NCCL, LD_LIBRARY_PATH doit réussir avec les mises à jour ci-dessous.

        • PATHs Des éléments communs sont déjà ajoutés à LD_LIBRARY_PATH :

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.

  • Installateur EFA : 1.38.0

  • Nvidia GDRCopy : 2,4

  • AWS NCCL OFI : 1.13.2

    • AWS OFI NCCL prend désormais en charge plusieurs versions NCCL avec une seule version

    • Le chemin d'installation :/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib64 est ajouté à LD_LIBRARY_PATH.

  • Type de volume EBS : GP3

  • Requête AMI-ID avec le paramètre SSM (exemple : la région est us-east-1) :

    • Pilote OSS Nvidia :

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-amazon-linux-2/latest/ami-id  \ --query "Parameter.Value" \ --output text
    • Pilote Nvidia propriétaire :

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Interrogez l'AMI-ID avec AWSCLI (par exemple, la région est us-east-1) :

    • Pilote OSS Nvidia :

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • Pilote Nvidia propriétaire :

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Avis

Boîte à outils NVIDIA Container 1.17.4

Dans la version 1.17.4 de Container Toolkit, le montage des bibliothèques de compatibilité CUDA est désormais désactivé. Afin de garantir la compatibilité avec plusieurs versions de CUDA sur les flux de travail de conteneurs, veillez à mettre à jour votre LD_LIBRARY_PATH pour inclure vos bibliothèques de compatibilité CUDA, comme indiqué dans le didacticiel Si vous utilisez une couche de compatibilité CUDA.

Mises à jour EFA de 1.37 à 1.38 (sortie le 04/02/2025)

EFA intègre désormais le plugin AWS OFI NCCL, qui se trouve désormais dans/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si vous mettez à jour votre variable LD_LIBRARY_PATH, assurez-vous de modifier correctement votre emplacement OFI NCCL.

Politique de support

Ces AMIs composants de cette AMI, tels que les versions CUDA, peuvent être supprimés et modifiés en fonction de la politique de support du framework ou pour optimiser les performances des conteneurs de deep learning ou pour réduire la taille de l'AMI dans une future version, sans préavis. Nous supprimons les versions CUDA AMIs si elles ne sont utilisées par aucune version du framework prise en charge.

EC2 instances avec plusieurs cartes réseau
  • De nombreux types d’instances compatibles avec EFA possèdent également plusieurs cartes réseau.

  • DeviceIndex est unique à chaque carte réseau et doit être un entier non négatif inférieur à la limite de ENIs par. NetworkCard Sur P5, le nombre de ENIs par NetworkCard est 2, ce qui signifie que les seules valeurs valides pour DeviceIndex sont 0 ou 1.

    • Pour l'interface réseau principale (index de carte réseau 0, indice de périphérique 0), créez une interface EFA (EFA avec ENA). Vous ne pouvez pas utiliser une interface réseau uniquement EFA comme interface réseau principale.

    • Pour chaque interface réseau supplémentaire, utilisez le prochain index de carte réseau inutilisé, l'index de périphérique 1, et une interface réseau EFA (EFA avec ENA) ou EFA uniquement, selon votre cas d'utilisation, comme les exigences en bande passante ENA ou l'espace d'adressage IP. Pour des exemples de cas d'utilisation, consultez la section Configuration EFA pour une instance P5.

    • Pour plus d'informations, consultez le guide EFA ici.

Instances P5/P5e
  • Les instances P5 et P5e contiennent 32 cartes d'interface réseau et peuvent être lancées à l'aide de la commande suivante : AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Instances P5en
  • Le P5en contient 16 cartes d'interface réseau et peut être lancé à l'aide de la commande suivante : AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Noyau
  • La version du noyau est épinglée à l'aide de la commande :

    sudo yum versionlock kernel*
  • Nous recommandons aux utilisateurs d'éviter de mettre à jour la version de leur noyau (sauf en cas de correctif de sécurité) afin de garantir la compatibilité avec les pilotes installés et les versions de package. Si les utilisateurs souhaitent toujours effectuer la mise à jour, ils peuvent exécuter les commandes suivantes pour déconnecter leur version du noyau :

    sudo yum versionlock delete kernel* sudo yum update -y
  • Pour chaque nouvelle version de DLAMI, le dernier noyau compatible disponible est utilisé.

Date de sortie : 2025-04-22

Noms des AMI
  • Pilote AMI Nvidia OSS basé sur le Deep Learning (Amazon Linux 2) Version 69.3

  • Pilote AMI propriétaire Nvidia basé sur le Deep Learning Base (Amazon Linux 2), version 67.0

Mis à jour

  • Mise à niveau du pilote Nvidia de la version 550.144.03 à la version 550.163.01 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA d'avril 2025

Date de sortie : 2025-02-17

Noms des AMI
  • Pilote AMI Nvidia OSS basé sur le Deep Learning (Amazon Linux 2), version 68.5

  • Pilote AMI propriétaire Nvidia basé sur le Deep Learning Base (Amazon Linux 2), version 66.3

Mis à jour

Supprimé

  • Suppression des bibliothèques d'espace utilisateur cuobj et nvdisasm fournies par le kit d'outils NVIDIA CUDA pour remédier à un problème CVEs présent dans le bulletin de sécurité du kit d'outils NVIDIA CUDA du 18 février 2025

Date de sortie : 2025-02-04

Noms des AMI
  • Pilote AMI Nvidia OSS basé sur le Deep Learning (Amazon Linux 2), version 68.4

  • Pilote AMI propriétaire Nvidia basé sur le Deep Learning Base (Amazon Linux 2), version 66.1

Mis à jour

  • Version EFA mise à niveau de 1.37.0 à 1.38.0

Date de sortie : 2025-01-17

Noms des AMI
  • Pilote AMI Nvidia OSS basé sur le Deep Learning (Amazon Linux 2), version 68.3

  • Pilote AMI propriétaire Nvidia (Amazon Linux 2) Deep Learning Base, version 66.0

Mis à jour

  • Mise à niveau du pilote Nvidia de la version 550.127.05 à la version 550.144.03 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA de janvier 2025

Date de sortie : 2025-01-06

Noms des AMI
  • Pilote AMI Nvidia OSS basé sur le Deep Learning (Amazon Linux 2), version 68.2

  • Pilote AMI propriétaire Nvidia basé sur le Deep Learning Base (Amazon Linux 2), version 65.9

Mis à jour

  • EFA mis à jour de la version 1.34.0 à la version 1.37.0

  • Mise à niveau de AWS OFI NCCL de la version 1.11.0 à la version 1.13.0

Date de sortie : 2024-12-09

Noms des AMI
  • Pilote AMI Nvidia OSS basé sur le Deep Learning (Amazon Linux 2), version 68.1

  • Pilote AMI propriétaire Nvidia basé sur le Deep Learning Base (Amazon Linux 2), version 65.8

Mis à jour

  • Mise à niveau de Nvidia Container Toolkit de la version 1.17.0 à la version 1.17.3

Date de sortie : 2024-11-09

Noms des AMI
  • Pilote AMI Nvidia OSS basé sur le Deep Learning (Amazon Linux 2), version 67.9

  • Pilote AMI propriétaire Nvidia basé sur le Deep Learning Base (Amazon Linux 2), version 65.6

Mis à jour

Date de sortie : 2024-10-22

Noms des AMI
  • Pilote AMI Nvidia OSS basé sur le Deep Learning (Amazon Linux 2), version 67.7

  • Pilote AMI propriétaire Nvidia basé sur le Deep Learning Base (Amazon Linux 2), version 65.4

Mis à jour

  • Mise à niveau du pilote Nvidia de la version 550.90.07 à la version 550.127.05 pour corriger un problème CVEs présent dans le bulletin de sécurité d'affichage des GPU NVIDIA d'octobre 2024

Date de sortie : 2024-10-03

Noms des AMI
  • Version AMI du pilote Nvidia OSS basé sur le Deep Learning (Amazon Linux 2)

  • Pilote AMI propriétaire Nvidia basé sur le Deep Learning Base (Amazon Linux 2), version 65.2

Mis à jour

Date de sortie : 2024-08-27

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version 67.0

Mis à jour

  • Mise à niveau du pilote Nvidia et du Fabric Manager de la version 535.183.01 à la version 550.90.07

    • Suppression de l'exigence de shell multi-utilisateurs de Fabric Manager sur la base des recommandations de Nvidia

    • Pour plus d'informations, veuillez consulter les problèmes connus relatifs au pilote Tesla 550.90.07 ici

  • Version EFA mise à niveau de la version 1.32.0 à la version 1.34.0

  • Mise à niveau de NCCL vers la dernière version 2.22.3 pour toutes les versions de CUDA

    • CUDA 12.1, 12.2 mis à jour à partir de 2.18.5+ 2 CUDA12

    • CUDA 12.3 a été mis à jour depuis 2.21.5+ 4 CUDA12

Ajouté

  • Ajout de la version 12.4 du kit d'outils CUDA dans le répertoire/-12.4 usr/local/cuda

  • Ajout du support pour les EC2 instances P5e.

Supprimé

  • Suppression de la pile de la version 11.8 du kit d'outils CUDA présente dans le répertoire/-11.8 usr/local/cuda

Date de sortie : 2024-08-19

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version 66.3

Ajouté

  • Ajout de la prise en charge des EC2 instances G6e.

Date de sortie : 2024-06-06

Noms des AMI
  • Pilote AMI Nvidia OSS basé sur le Deep Learning (Amazon Linux 2), version 65.4

  • Pilote AMI propriétaire Nvidia basé sur le Deep Learning Base (Amazon Linux 2), version 63.9

Mis à jour

  • Version du pilote Nvidia mise à jour vers 535.183.01 à partir de 535.161.08

Date de sortie : 2024-05-02

Noms des AMI
  • Pilote AMI Nvidia OSS basé sur le Deep Learning (Amazon Linux 2), version 64.7

  • Pilote AMI propriétaire Nvidia basé sur le Deep Learning Base (Amazon Linux 2), version 63.2

Mis à jour

  • Version EFA mise à jour de la version 1.30 à la version 1.32

  • Plugin AWS OFI NCCL mis à jour de la version 1.7.4 à la version 1.9.1

  • Boîte à outils de conteneurs Nvidia mise à jour de la version 1.13.5 à la version 1.15.0

Ajouté

  • Ajout d'une pile CUDA12 .3 avec CUDA12 .3, NCCL 2.21.5, cuDNN 8.9.7

    La version 1.15.0 n'inclut PAS les packages nvidia-docker2 nvidia-container-runtime et nvidia-docker2. Il est recommandé d'utiliser les nvidia-container-toolkit packages directement en suivant la documentation du kit d'outils de conteneurs Nvidia.

Supprimé

  • Suppression des piles de CUDA11 0,7, CUDA12 ,0 présentes à +/- 12,0 usr/local/cuda-11.7 and /usr/local/cuda

  • Suppression du package nvidia-docker2 et de sa commande nvidia-docker dans le cadre de la mise à jour de la boîte à outils de conteneurs Nvidia de la version 1.13.5 à la version 1.15.0, qui n'inclut PAS les packages nvidia-docker2 et nvidia-docker2. nvidia-container-runtime

Date de sortie : 2024-04-04

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version 64.0

Ajouté

  • Pour le pilote OSS Nvidia DLAMIs, ajout du support des instances G6 et Gr6 EC2

Date de sortie : 2024-03-29

Noms des AMI
  • Pilote AMI Nvidia OSS basé sur le Deep Learning (Amazon Linux 2), version 62.3

  • Pilote AMI propriétaire Nvidia basé sur le Deep Learning Base (Amazon Linux 2), version 63.2

Mis à jour

  • Mise à jour du pilote Nvidia de 535.104.12 à 535.161.08 dans le pilote Nvidia propriétaire et OSS. DLAMIs

  • Les nouvelles instances prises en charge pour chaque DLAMI sont les suivantes :

    • Le Deep Learning avec pilote propriétaire Nvidia prend en charge les formats G3 (G3.16x non pris en charge), P3, P3dn

    • Apprentissage profond avec OSS Le pilote Nvidia est compatible avec G4dn, G5, P4d, P4de, P5.

Supprimé

  • Suppression de la prise en charge des EC2 instances G4dn, G5, G3.16x par le pilote propriétaire Nvidia DLAMI.

Date de sortie : 2024-03-20

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version 63.1

Ajouté

  • Ajout de awscliv2 dans l'AMI en tant que/usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/awssur l'AMI du pilote OSS Nvidia

Date de sortie : 2024-03-13

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version 63.0

Mis à jour

  • Pilote OSS Nvidia DLAMI mis à jour avec support G4dn et G5. Sur cette base, le support actuel ressemble à ce qui suit :

    • L'AMI de pilote Nvidia propriétaire de Deep Learning Base (Amazon Linux 2) prend en charge les formats P3, P3dn, G3, G4dn et G5.

    • Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) est compatible avec G4dn, G5, P4, P5.

  • Il est recommandé d'utiliser le pilote DLAMIs OSS Nvidia pour G4dn, G5, P4, P5.

Date de sortie : 2024-02-13

Noms des AMI
  • Pilote AMI Nvidia OSS basé sur le Deep Learning (Amazon Linux 2) Version 62.1

  • Pilote AMI propriétaire Nvidia basé sur le Deep Learning Base (Amazon Linux 2), version 62.1

Mis à jour

  • Mise à jour du pilote OSS Nvidia de 535.129.03 à 535.154.05

  • EFA mis à jour de 1.29.0 à 1.30.0

  • Mise à jour de l' AWS OFI NCCL de la version 1.7.3-aws à la version 1.7.4-aws

Date de sortie : 2024-02-01

Nom de l'AMI : AMI du pilote Nvidia propriétaire de Deep Learning Base (Amazon Linux 2), version 62.0

Sécurité

La version 61.4

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version 61.4

Mis à jour

  • Mise à jour du pilote OSS Nvidia de 535.104.12 à 535.129.03

La version 61.0

Nom de l'AMI : Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version 61.4

Mis à jour

  • EFA mis à jour de 1.26.1 à 1.29.0

  • GDRCopy mis à jour de 2.3 à 2.4

Ajouté

  • AWS L'AMI d'apprentissage profond (DLAMI) est divisée en deux groupes distincts :

    • DLAMI utilisant le pilote propriétaire Nvidia (compatible avec P3, P3dn, G3, G5, G4dn).

    • DLAMI qui utilise le pilote Nvidia OSS pour activer EFA (pour prendre en charge les formats P4, P5).

  • Veuillez consulter l'annonce publique pour plus d'informations sur la division du DLAMI.

  • Pour les AWS CLI requêtes, voir le point Query AMI-ID with AWSCLI (exemple : Region is us-east-1)

La version 60.6

Nom de l'AMI : AMI de base d'apprentissage profond (Amazon Linux 2) version 60.6

Mis à jour

  • AWS Plugin OFI NCCL mis à jour de la version 1.7.2 à la version 1.7.3

  • Répertoires CUDA 12.0-12.1 mis à jour avec la version 2.18.5 de NCCL

  • CUDA121. Mise à jour en tant que version CUDA par défaut

    • LD_LIBRARY_PATH a été mis à jour pour avoir//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin

    • Pour les clients qui souhaitent passer à une autre version de CUDA, veuillez définir les variables LD_LIBRARY_PATH et PATH en conséquence.

Ajouté

  • Kernel Live Patching est désormais activé. Les correctifs en temps réel permettent aux clients d'appliquer des correctifs de failles de sécurité et de bogues critiques à un noyau Linux en cours d'exécution, sans redémarrage ni interruption de l'exécution des applications. Veuillez noter que la prise en charge des correctifs en direct pour le noyau 5.10.192 prendra fin le 30 novembre 23.

La version 60.5

Nom de l'AMI : AMI de base d'apprentissage profond (Amazon Linux 2) version 60.5

Mis à jour

  • Mise à jour du pilote NVIDIA de 535.54.03 à 535.104.12

    Ce dernier pilote corrige les modifications majeures de l'ABI NVML trouvées dans le pilote 535.54.03, ainsi que la régression du pilote trouvée dans le pilote 535.86.10 qui affectait les boîtes à outils CUDA sur les instances P5. Consultez les notes de mise à jour suivantes de NVIDIA pour plus de détails sur les correctifs :

    • 4235941 - Correctif de modification révolutionnaire de l'ABI NVML

    • 4228552 - Correction d'erreur du kit d'outils CUDA

  • Répertoires CUDA 12.2 mis à jour avec NCCL 2.18.5

  • EFA mis à jour de la version 1.24.1 à la dernière version 1.26.1

Ajouté

  • Ajouté CUDA12 2.2 à/usr/local/cuda-12.2

Supprimé

  • Suppression du support pour CUDA 11.5 et CUDA 11.6

La version 60.2

Nom de l'AMI : AMI de base d'apprentissage profond (Amazon Linux 2) version 60.2

Mis à jour

  • aws-ofi-ncclPlugin mis à jour de la v1.7.1 à la v1.7.2

La version 60.0

Date de sortie : 2023-08-11

Ajouté

  • Cette AMI prend désormais en charge les fonctionnalités d'entraînement à nœuds multiples sur P5 et sur toutes les instances précédemment prises en charge EC2

  • Pour les EC2 instances P5, il est recommandé d'utiliser NCCL 2.18 et il a été ajouté à CUDA12 .0 et .1. CUDA12

Supprimé

  • Suppression du support pour la CUDA11 version 5.

La version 59.2

Date de sortie : 2023-08-08

Supprimé

  • Suppression de CUDA-11.3 et CUDA-11.4

La version 59.1

Date de sortie : 2023-08-03

Mis à jour

  • Plugin AWS OFI NCCL mis à jour vers la version v1.7.1

  • Fabriqué en CUDA11 .8 par défaut car PyTorch 2.0 supporte 11.8 et pour les EC2 instances P5, il est recommandé d'utiliser >= .8 CUDA11

    • LD_LIBRARY_PATH a été mis à jour pour avoir//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin

    • Pour toute version différente de cuda, veuillez définir LD_LIBRARY_PATH en conséquence.

Fixe

  • Correction du problème de chargement du package Nvidia Fabric Manager (FM) mentionné lors de la date de sortie antérieure du 19/07/2023.

La version 58.9

Date de sortie : 2023-07-19

Mis à jour

  • Pilote Nvidia mis à jour de 525.85.12 à 535.54.03

  • Programme d'installation d'EFA mis à jour de la version 1.22.1 à la version 1.24.1

Ajouté

  • Ajout de modifications de l'état C pour désactiver l'état inactif du processeur en réglant l'état C maximal sur C1. Cette modification est effectuée en définissant `intel_idle.max_cstate=1 processor.max_cstate=1` dans les arguments de démarrage de Linux dans le fichier/etc/default/grub

  • AWS EC2 Support des instances P5 :

    • Ajout de la prise en charge des EC2 instances P5 pour les flux de travail utilisant un seul nœud ou une seule instance. La prise en charge de plusieurs nœuds (par exemple pour l'entraînement multi-nœuds) à l'aide d'EFA (Elastic Fabric Adapter) et du plug-in AWS OFI NCCL sera ajoutée dans une prochaine version.

    • Veuillez utiliser CUDA>=11.8 pour des performances optimales.

    • Problème connu : le chargement du package Nvidia Fabric Manager (FM) prend du temps sur P5. Les clients doivent attendre 2 à 3 minutes jusqu'à ce que FM se charge après le lancement de l'instance P5. Pour vérifier si FM est démarré, exécutez la commande sudo systemctl is-active nvidia-fabricmanager, elle devrait redevenir active avant de démarrer un flux de travail. Cela sera corrigé dans la prochaine version.

La version 58.0

Date de sortie : 2023-05-19

Supprimé

  • Suppression de la pile CUDA11 .0-11.2 conformément à la politique de support mentionnée dans la section supérieure de ce document.

La version 57.3

Date de sortie : 2023-04-06

Ajouté

  • Ajout de Nvidia GDRCopy 2.3

La version 5.6.8

Date de sortie : mars 2009

Mis à jour

  • Mise à jour du pilote NVIDIA 515.65.01 à 525.85.12

Ajouté

  • Ajouté cuda-11.8 à/-11.8/ usr/local/cuda

La version 56.0

Date de sortie : 03.12-06

Mis à jour

  • Version EFA mise à jour de 1.17.2 à 1.19.0

La version 5.5.0

Date de sortie : 04-11-04

Mis à jour

  • Pilote NVIDIA mis à jour de 510.47.03 à 515.65.01

Ajouté

  • Ajouté cuda-11.7 à/-11.7/ usr/local/cuda

La version 54.0

Date de sortie : 03.09-15

Mis à jour

  • Version EFA mise à jour de 1.16.0 à 1.17.2

La version 5.3.3

Date de sortie : 05.05-25

Mis à jour

  • Mise à jour aws-efa-installer vers version 1.15.2

  • Mise à jour aws-ofi-nccl vers la version 1.3.0-aws qui inclut la topologie pour p4de.24xlarge.

Ajouté

  • Cette version ajoute la prise en charge des instances EC2 p4de.24xlarge.

La version 53.0

Date de sortie : 04-04-28

Ajouté

  • Ajout d'un CloudWatch agent Amazon

  • Ajout de trois services systemd qui utilisent des fichiers json prédéfinis disponibles sur path/opt/aws/amazon-cloudwatch-agent/etc/pour configurer les métriques du GPU à l'aide de l'utilisateur linux cwagent

    • dlami-cloudwatch-agent@minimal

      • Commandes pour activer les métriques du GPU :

        sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal
      • Il crée les métriques suivantes : utilization_gpu utilization_memory

    • dlami-cloudwatch-agent@partial

      • Commandes pour activer les métriques du GPU :

        sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial
      • Il crée les métriques suivantes :utilization_gpu,utilization_memory,memory_total,memory_used, memory_free

    • dlami-cloudwatch-agent@all

      • Commandes pour activer les métriques du GPU :

        sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all
      • Il crée toutes les métriques GPU disponibles

La version 52.0

Date de sortie : 03-03-08

Mis à jour

  • Version du noyau mise à jour vers la version 5.10

La version 51.0

Date de sortie : 03.03-04

Mis à jour

  • Mise à jour du pilote Nvidia vers la version 510.47.03

La version 50.0

Date de sortie : 04.02-17

Mis à jour

  • Verrouillés aws-neuron-dkms et tensorflow-model-server-neuron lorsqu'ils sont mis à jour vers des versions plus récentes qui ne sont pas prises en charge par les packages Neuron présents dans l'AMI

    • Commandes si le client souhaite déverrouiller le package pour le mettre à jour avec la version la plus récente : sudo yum versionlock delete aws-neuron-dkms sudo yum versionlock delete tensorflow-model-server-neuron

La version 49.0

Date de sortie : 03.01-13

Ajouté

  • Ajout de la version CUDA11 2 avec les composants suivants :

    • cuDNN v8.1.1.33

    • NCCL 2.8.4

    • CUDA 11.2.2

Mis à jour

  • Mise à jour du lien symbolique pip vers pip3

Obsolescence

  • Support obsolète pour le type d'instance P2

  • Python2.7 obsolète et suppression des paquets python2.7 associés tels que « python-dev », « python-pip » et « python-tk »

La version 48.0

Date de sortie : 2021-12-27

Mis à jour

  • Le fichier org.apache.ant_1.9.2.v201404171502 \ lib \ ant-apache-log 4j.jar a été supprimé des versions de cuda car il n'est pas utilisé et il n'y a aucun risque pour les utilisateurs possédant les fichiers Log4j. Pour plus d'informations, consultez https://nvidia.custhelp.com/app/answers/detail/a_id/5294.

La version 47.0

Date de sortie : 2021-11-24

Mis à jour

  • Mise à jour d'EFA vers la version 1.14.1

La version 46.0

Date de sortie : 2021-11-12

Mis à jour

  • Packages Neuron mis à jour à partir de aws-neuron-dkms =1.5. *, aws-neuron-runtime-base =1,5. *, aws-neuron-tools =1,6.* à =2,2. aws-neuron-dkms *, aws-neuron-runtime-base =1,6. *, aws-neuron-tools =2,0.*.

  • Suppression du package Neuron aws-neuron-runtime =1.5.* car Neuron n'a plus d'environnement d'exécution en tant que démon et le runtime est désormais intégré au framework en tant que bibliothèque.

La version 45.0

Date de sortie : 2021-10-21

Ajouté

  • Les rapports d'analyse de sécurité au format JSON sont disponibles à l'adresse/opt/aws/dlami/info/.

La version 44.0

Date de sortie : 2021-10-08

de modification

  • Pour chaque lancement d'instance à l'aide du DLAMI, la balise aws-dlami-autogenerated-tag « do-not-delete - » sera ajoutée pour AWS permettre de collecter le type d'instance, l'ID de l'instance, le type de DLAMI et les informations du système d'exploitation. Aucune information sur les commandes utilisées dans le DLAMI n'est collectée ou conservée. Aucune autre information concernant le DLAMI n'est collectée ou conservée. Pour désactiver le suivi de l'utilisation de votre DLAMI, ajoutez une balise à votre instance EC2 Amazon lors du lancement. La balise doit utiliser la clé OPT_OUT_TRACKING avec la valeur associée définie sur true. Pour plus d'informations, consultez Marquer vos EC2 ressources Amazon.

Sécurité

  • Version de docker mise à jour vers docker-20.10.7-3

La version 43.0

Date de sortie : 2021-08-24

de modification

  • « Notebook » mis à jour vers la version « 6.4.1".

La version 42.0

Date de sortie : 2021-07-23

de modification

  • Mise à jour de la version du pilote Nvidia et du gestionnaire Fabric vers 450.142.00.

La version 41.0

Date de sortie : 2021-06-24

de modification

  • Packages Neuron mis à jour conformément à la version 1.14.0 de Neuron

La version 40.0

Date de sortie : 2021-06-10

de modification

  • Version awscli mise à jour vers la version 1.19.89

La version 39.0

Date de sortie : 2021-05-27

Sécurité

  • Suppression des composants vulnérables de CUDA-10.0 (Visual Profiler, Nsight EE et JRE) de l'installation de CUDA-10.0 (/-10.0). usr/local/cuda

La version 38.0

Date de sortie : 2021-05-25

de modification

  • Runc mis à jour vers la dernière version

La version 37.0

Date de sortie : 2021-04-23

de modification

  • Mise à jour du pilote Nvidia Tesla et de la version Fabric Manager vers 450.119.03.

La version 36.1

Date de sortie : 2021-04-21

Fixe

  • Correction d'un problème qui ralentissait la vitesse de lancement de l'instance.

La version 36.0

Date de sortie : 2021-03-24

Ajouté

  • Ajouté tensorflow-model-server-neuron pour prendre en charge le service de modèles neuronaux.

de modification

  • Mise à niveau de jupyterlab vers la version 3.0.8 pour python3.

Fixe

  • L'ancienne installation d'OpenMPI dansusr/local/mpi caused /opt/amazon/openmpi/bin/mpirun to be linked incorrectly. To fix the link issue, we removed /usr/local/mpi installation, OpenMPI installation in /opt/amazon/openmpi/est disponible.

  • Supprimez les définitions dupliquées et inexistantes des environnements shell qui polluaient les variables d'environnement shell telles que PATH et LD_LIBRARY_PATH. Par conséquent, ~/.dlami et/etc/profile.d/var.sh has been removed, and /etc/profile.d/dlami.sh ont été ajoutés.

Sécurité

La version 35.0

Date de sortie : 2021-03-08

Ajouté

  • Ajout de l'installation de TensorRT CUDA 11.0

La version 34.3

Date de sortie : 2021-02-25

Fixe

  • Correction d'une faute de frappe dans le MOTD (message du jour) qui affichait incorrectement la version 34.1.

La version 34.2

Date de sortie : 2021-02-24

Sécurité

  • Python2 et python3 corrigés pour CVE-2021-3177

Problème connu

  • Il y a une faute de frappe dans le MOTD (message du jour) qui affichait incorrectement la version 34.1. Nous publierons la version 34.3 pour résoudre ce problème.

La version 34.0

Date de sortie : 2021-02-09

de modification

  • Épinglé à la version 20.3.4 pour python2, il s'agit de la dernière version de pip supportant python2 et python3.5.

La version 33.0

Date de sortie : 2021-01-19

de modification

  • Mise à jour de la version cuDNN vers la version 8.0.5.39 dans les versions 1.0 et 8.1 CUDA11. CUDA11

La version 32.0

Date de sortie : 2020-12-01

Ajouté

  • Ajout de la version CUDA11 .1 avec NCCL 2.7.8, cuDNN 8.0.4.30 pour l'AMI d'apprentissage profond (Amazon Linux 2), l'AMI d'apprentissage profond (Ubuntu 16.04), l'AMI d'apprentissage profond (Ubuntu 18.04), l'AMI de base d'apprentissage profond (Ubuntu 16.04), l'AMI de base d'apprentissage profond (Amazon Linux 2).

La version 31.0

Date de sortie : 2020-11-02

de modification

  • Installation d'EFA mise à niveau vers la version 1.10.0.

  • Mise à niveau de la version cuDNN vers la version 8.0.4.30 pour CUDA 11.0.

  • Mise à niveau de AWS Neuron vers la version 1.1

La version 30.0

Date de sortie : 2020-10-08

de modification

  • Versions du pilote NVIDIA et du Fabric Manager mises à jour vers la version 450.80.02

  • Mise à jour de NCCL vers la version 2.7.8 dans la version 2.0 CUDA11

Fixe

  • Correction d'un problème en raison duquel le package python géré par yum était remplacé par des installations gérées par pip. Les exécutables pip, pip3 et pip3.7 ont été déplacés de/usr/binto /usr/local/binasdans le cadre de ce correctif.

La version 29.0

Date de sortie : 2020-09-11

de modification

  • Pilote NVIDIA mis à jour de la version 450.51.05 à 450.51.06

  • Ajout de la version 450.51.06 de NVIDIA Fabric Manager

  • Mise à niveau d'EFA vers la version 1.9.4

La version 28.0

Date de sortie : 2020-08-19

de modification

  • Ajout de la pile CUDA 11.0 avec NCCL 2.7.6 et cuDNN 8.0.2.39

La version 27.0

Date de sortie : 2020-08-07

de modification

  • EFA mis à jour de la version 1.7.1 à la version 1.9.3 à/opt/amazon/efa

  • La mise à niveau d'Open MPI de la version 4.0.3 à la version 4.0.4 dans «/usr/local/mpi’. Open MPI at ‘/opt/amazon/openmpi/bin/mpirun» est toujours à la version 4.0.3

  • Mise à jour du pilote NVIDIA 440.33.01 à 450.51.05

  • Mise à niveau de la version NCCL de 2.6.4 à 2.7.6 en 0.2 CUDA1

La version 26.0

Date de sortie : 2020-08-03

de modification

  • Mise à jour de l' AWS OFI NCCL vers la version la plus récente, voir ici pour plus de détails.

  • Cuda 8.0/9.0/9.2 ont été supprimés de l'AMI

Fixe

  • Correction d'une erreur empêchant l'ouverture du fichier objet partagé : libopencv_dnn.so.4.2.

La version 25.0

Date de sortie : 2020-07-19

de modification

  • Version EFA mise à jour vers la version 1.7.1 pour prendre en charge NCCL 2.6.4

  • Version NCCL mise à jour vers la version 2.6.4 pour CUDA 10.2

  • Version awscli mise à jour de la version 1.16.76 à la version 1.18.80

  • Version boto3 mise à jour de la version 1.9.72 à la version 1.14.3

La version 24.1

Date de sortie : 2020-06-14

de modification

  • Version Docker mise à jour vers la version 19.03.6

La version 24.0

Date de sortie : 2020-05-20

de modification

  • Version Docker mise à jour vers la version 19.03.6

La version 23.0

Date de sortie : 2020-04-29

de modification

  • Versions du package python mises à niveau

La version 22.0

Date de sortie : 2020-03-04

de modification

  • Ajout de la pile CUDA 10.2

  • Mise à jour de CUDA 10.0 et 10.1 pour les versions cuDNN et NCCL