AWS AMI d'apprentissage profond (Amazon Linux 2) - AWS Apprentissage profond (deep learning) AMIs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS AMI d'apprentissage profond (Amazon Linux 2)

Astuce

Les clients utilisant un framework unique comme PyTorch ou TensorFlow sont encouragés à utiliser le framework unique DLAMIs mentionné ici

Pour obtenir de l'aide pour démarrer, consultezCommencer à utiliser le DLAMI.

Format du nom de l'AMI

  • Version $ {XX.X} du pilote Nvidia propriétaire pour le Deep Learning (Amazon Linux 2)

  • Version $ {XX.X} du pilote Nvidia pour le Deep Learning OSS (Amazon Linux 2)

EC2 Instances prises en charge

  • Reportez-vous à la section Modifications importantes apportées au DLAMI.

  • Apprentissage profond avec OSS Le pilote Nvidia est compatible avec G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5

  • Le Deep Learning avec pilote propriétaire Nvidia prend en charge les formats G3 (G3.16x non pris en charge), P3, P3dn

L'AMI inclut les éléments suivants :

  • AWS Service pris en charge : Amazon EC2

  • Système d'exploitation : Amazon Linux 2

  • Architecture de calcul : x86

  • Framework d'environnements Conda et versions python :

    • AMI du pilote Nvidia pour le Deep Learning OSS (Amazon Linux 2) :

      • python3 : Python 3.10

      • tensorflow2_p310 : 2,16, Python 3,10 TensorFlow

      • pytorch_p310 : 2,2, Python 3,10 PyTorch

    • AMI de pilote Nvidia propriétaire pour le Deep Learning (Amazon Linux 2) :

      • python3 : Python 3.10

      • tensorflow2_p310 : 2,16, Python 3,10 TensorFlow

      • pytorch_p310 : 2,2, Python 3,10 PyTorch

  • Pilote NVIDIA :

    • Pilote OSS Nvidia : 550.163.01

    • Pilote Nvidia propriétaire : 550.163.01

  • Stack NVIDIA CUDA12 1.1-12.4 :

    • Chemin d'installation de CUDA, NCCL et CudDN :/-xx.x/ usr/local/cuda

    • CUDA par défaut : 12.1

      • PATH//usr/local/cudapointe vers CUDA12 1.

      • Mise à jour des variables d'environnement ci-dessous :

        • LD_LIBRARY_PATH à avoir/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • CHEMIN à avoir/usr/local/cuda-12.1/bin/:/usr/local/cuda-11.8/include/

      • Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.

    • Version NCCL compilée pour CUDA 12.1-12.4 : 2.22.3

    • Lieu des tests du NCCL :

      • all_reduce, all_gather et reduce_scatter :/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

      • Pour exécuter les tests NCCL, LD_LIBRARY_PATH doit réussir avec les mises à jour ci-dessous.

        • PATHs Des éléments communs sont déjà ajoutés à LD_LIBRARY_PATH :

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • Pour toute autre version de CUDA, veuillez mettre à jour LD_LIBRARY_PATH en conséquence.

  • Installateur EFA : 1.38.0

  • GDRCopy: 2,4

  • AWS NFC OFI : 1.13.2

    • Emplacement du système :/usr/local/cuda-xx.x/efa

    • Ceci est ajouté pour exécuter les tests NCCL situés à l'adresse/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

    • De plus, le PyTorch package est également livré avec un plugin AWS OFI NCCL lié dynamiquement en tant que aws-ofi-nccl-dlc package conda et PyTorch utilisera ce package au lieu du système AWS OFI NCCL.

  • Emplacement des tests NCCL :/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

  • AWS CLI v2 à/usr/local/bin/aws2 et AWS CLI v1 à/usr/local/bin/aws

  • Type de volume EBS : GP3

  • Requête AMI-ID avec le paramètre SSM (exemple de région : us-east-1) :

    • Pilote OSS Nvidia :

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-oss-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
    • Pilote Nvidia propriétaire :

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
  • Requête AMI-ID avec AWSCLI (exemple de région : us-east-1) :

    • Pilote OSS Nvidia :

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
    • Pilote Nvidia propriétaire :

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Avis

Mises à jour EFA de 1.37 à 1.38 (sortie le 05/02/2025)

  • EFA intègre désormais le plugin AWS OFI NCCL, qui se trouve désormais dans/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si vous mettez à jour votre variable LD_LIBRARY_PATH, assurez-vous de modifier correctement l'emplacement NCCL de votre OFI.

Suppression de l'environnement Neuron Conda

  • Le pilote Nvidia propriétaire pour le Deep Learning AMIs publié après le 18 juillet 2024 sera expédié sans les environnements Neuron Conda pour PyTorch et. TensorFlow Veuillez plutôt utiliser le Neuron DLAMIs on the DLAMI Release Notes pour utiliser les environnements neuronaux.

Suppression du package d'audit

  • Les DLAMI publiés entre le 26 mars 2024 (2024-03-26) et le 12 avril 2024 (2024-04-12) ont été expédiés sans le package d'audit. Si vous avez besoin de ce package spécifique pour vos besoins de journalisation et de surveillance, veuillez migrer vos flux de travail vers le DLAMI le plus récent afin de les utiliser avec le package d'audit installé.

Horovod

  • Horovod est supprimé des environnements conda pytorch_p310 et tensorflow2_p310 actuels sur le DLAMI. Les clients pourront installer les bibliothèques Horovod en suivant les directives Horovod et les installer sur leurs bibliothèques DLAMIs pour leurs tâches de formation distribuées.

Date de sortie : 2025-04-22

Noms des AMI
  • Pilote AMI Nvidia OSS pour apprentissage profond (Amazon Linux 2) Version 81.2

  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 81.2

Mis à jour

  • Mise à niveau du pilote Nvidia de la version 550.144.03 à la version 550.163.01 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA d'avril 2025

Date de sortie : 2025-02-17

Noms des AMI
  • Pilote AMI Nvidia OSS pour apprentissage profond (Amazon Linux 2) Version 80.6

  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 80.4

Mis à jour

Supprimé

Date de sortie : 2025-02-05

Noms des AMI
  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 80.2

  • Pilote AMI Nvidia OSS pour apprentissage profond (Amazon Linux 2) Version 80.4

Mis à jour

  • Version EFA mise à niveau de 1.37.0 à 1.38.0

    • EFA intègre désormais le plugin AWS OFI NCCL, qui se trouve désormais dans/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Si vous mettez à jour votre variable LD_LIBRARY_PATH, assurez-vous de modifier correctement l'emplacement NCCL de votre OFI.

Date de sortie : 2025-01-15

Noms des AMI
  • Pilote AMI Nvidia OSS pour apprentissage profond (Amazon Linux 2) Version 80.3

  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 80.1

Mis à jour

  • Mise à niveau du pilote Nvidia de la version 550.127.05 à la version 550.144.03 pour corriger un problème CVEs présent dans le bulletin de sécurité du pilote d'affichage pour GPU NVIDIA de janvier 2025

Date de sortie : 2024-12-09

Noms des AMI
  • Pilote AMI Nvidia OSS pour apprentissage profond (Amazon Linux 2) Version 80.1

  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 79.9

Mis à jour

  • Mise à niveau de Nvidia Container Toolkit de la version 1.17.0 à la version 1.17.3

Date de sortie : 2024-11-11

Noms des AMI
  • Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2) Version 79.9

  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 79.7

Mis à jour

Date de sortie : 2024-10-22

Noms des AMI
  • Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2) Version 79.6

  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 79.6

Mis à jour

  • Mise à niveau du pilote Nvidia de la version 550.90.07 à la version 550.127.05 pour corriger un problème CVEs présent dans le bulletin de sécurité d'affichage des GPU NVIDIA d'octobre 2024

Date de sortie : 2024-10-03

Noms des AMI
  • Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2) Version 79.3

  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 79.3

Mis à jour

Date de sortie : 2024-07-18

Noms des AMI
  • Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2) Version 78.6

  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 78.7

Mis à jour

  • Suppression des environnements conda aws_neuron_pytorch_p38 et aws_neuron_tensorflow_p38 de l'AMI du pilote Nvidia propriétaire pour le Deep Learning.

  • Suppression de la prise en charge de la famille d'instances Inf1 de l'AMI du pilote Nvidia propriétaire pour le Deep Learning.

Date de sortie : 2024-06-06

Noms des AMI
  • Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2) Version 78.5

  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 78.5

Mis à jour

  • Version du pilote Nvidia mise à jour vers 535.183.01 à partir de 535.161.08

Date de sortie : 2024-05-17

Noms des AMI
  • Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2) Version 78.1

  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 78.1

Mis à jour

Date de sortie : 2024-05-07

Noms des AMI
  • Pilote AMI Nvidia OSS pour apprentissage profond (Amazon Linux 2) Version 78.0

  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 78.0

Mis à jour

Ajouté

  • Ajout d'une pile CUDA12 .3 avec CUDA12 .3, NCCL 2.21.5, cuDNN 8.9.7

Supprimé

Date de sortie : 2024-04-04

Noms des AMI
  • Pilote AMI Nvidia OSS pour apprentissage profond (Amazon Linux 2) Version 77.0

  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 77.0

Mis à jour

  • PyTorch version mise à jour de 2.1 à 2.2 dans l'environnement pytorch_p310.

  • Pour le pilote OSS Nvidia DLAMIs, ajout du support des EC2 instances G6 et Gr6. Reportez-vous à la page de sélection des EC2 instances pour plus d'informations.

Date de sortie : 2024-03-29

Noms des AMI
  • Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2) Version 76.8

  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 76.9

Mis à jour

  • Mise à jour du pilote Nvidia de 535.104.12 à 535.161.08 dans le pilote Nvidia propriétaire et OSS. DLAMIs

  • Les nouvelles instances prises en charge pour chaque DLAMI sont les suivantes :

    • Le Deep Learning avec pilote propriétaire Nvidia prend en charge les formats G3 (G3.16x non pris en charge), P3, P3dn, Inf1

    • Apprentissage profond avec OSS Le pilote Nvidia est compatible avec G4dn, G5, P4d, P4de.

Supprimé

  • Suppression de la prise en charge des EC2 instances G4dn, G5, G3.16x par le pilote propriétaire Nvidia DLAMI.

La version 76.8

Date de sortie : 2024-03-20

Noms des AMI
  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 76.8

Ajouté

  • Ajout d'awscliv2 dans l'AMI en tant que//usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/awssur l'AMI propriétaire du pilote Nvidia

La version 76.7

Date de sortie : 2024-03-20

Noms des AMI
  • Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2), version 76.7

Ajouté

  • Ajout de awscliv2 dans l'AMI en tant que/usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/awssur l'AMI du pilote OSS Nvidia

  • Pilote OSS Nvidia DLAMI mis à jour avec support G4dn et G5. Sur cette base, le support actuel ressemble à ce qui suit :

    • L'AMI de pilote Nvidia propriétaire de Deep Learning Base (Amazon Linux 2) prend en charge les formats P3, P3dn, G3, G5 et G4dn.

    • L'AMI du pilote Nvidia Deep Learning Base OSS (Amazon Linux 2) est compatible avec G4dn, G5, P4, P5.

  • Il est recommandé d'utiliser le pilote DLAMIs OSS Nvidia pour G4dn, G5, P4, P5.

La version 76.3

Date de sortie : 2024-02-14

Mis à jour

  • Mis à jour TensorFlow de la version 2.13.0 à la version 2.15.0

  • EFA mis à jour de 1.29.0 à 1.30.0

  • Mise à jour de AWS-OFI-NCCL de 1.7.3-aws à 1.7.4-aws

  • Mise à jour du pilote Nvidia vers la version 535.104.12 sur l'AMI de pilote Nvidia propriétaire basée sur le Deep Learning

  • Mise à jour du pilote Nvidia vers 535.154.05 sur Deep Learning OSS Nvidia Driver AMI

La version 76.2

Date de sortie : 2024-02-02

Noms des AMI
  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 76.2

  • Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2), version 76.4

Sécurité

La version 76.1

Date de sortie : 2023-12-27

Mis à jour

  • Mise à jour PyTorch de 2.0.1 à 2.1.0

La version 75.1

Date de sortie : 2023-11-17

Reportez-vous à la section Modifications importantes apportées au DLAMI

Noms des AMI
  • Pilote AMI Nvidia pour le Deep Learning OSS (Amazon Linux 2) Version 75.1

  • Pilote AMI propriétaire Nvidia pour le Deep Learning (Amazon Linux 2), version 75.1

Ajouté

  • AWS L'AMI d'apprentissage profond (DLAMI) est divisée en deux groupes distincts :

    • DLAMI utilisant le pilote propriétaire Nvidia (compatible avec P3, P3dn, G3, G5, G4dn).

    • DLAMI qui utilise le pilote Nvidia OSS pour activer EFA (pour prendre en charge les formats P4, P5).

  • Veuillez vous référer à l'annonce publique pour plus d'informations sur la division du DLAMI.

  • AWS les requêtes cli ci-dessus se trouvent dans les notes de publication sous bullet point Query AMI-ID with AWSCLI (exemple, la région est us-east-1)

Mis à jour

  • EFA mis à jour de 1.26.1 à 1.29.0

  • GDRCopy mis à jour de 2.3 à 2.4

La version 74.4

Date de sortie : 2023-10-27

Mis à jour

  • AWS Plugin OFI NCCL mis à jour de la version 1.7.2 à la version 1.7.3

  • Répertoires CUDA 12.0-12.1 mis à jour avec la version 2.18.5 de NCCL

  • CUDA12.1 mise à jour en tant que version CUDA par défaut

    • LD_LIBRARY_PATH a été mis à jour pour avoir//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin

    • Pour les clients qui souhaitent passer à une autre version de CUDA, veuillez définir les variables LD_LIBRARY_PATH et PATH en conséquence.

  • Pillow mis à jour de la version 9.4.0 à la version 10.1.0 pour corriger SNYK-PYTHON-PILLOW-5918878 dans tous les environnements Conda

  • Mise à jour d'opencv-python de 4.8.0.74 à 4.8.1.78 pour corriger SNYK-PYTHON-OPENCVPYTHON-5926695 dans tous les environnements conda

Ajouté

  • Kernel Live Patching est désormais activé. Les correctifs en temps réel permettent aux clients d'appliquer des correctifs de failles de sécurité et de bogues critiques à un noyau Linux en cours d'exécution, sans redémarrage ni interruption de l'exécution des applications.

La version 74.0

Date de sortie : 2023-07-19

Mis à jour

  • Mis à jour TensorFlow de la version 2.12 à la version 2.13

    • Horovod a été supprimé de l'environnement conda dans cette version. Voir la notice pour plus de détails sur l'installation d'horovod.

La version 73.1

Date de sortie : 2023-06-12

Mis à jour

  • Mise à jour PyTorch de la version 2.0.0 à la version 2.0.1