Installez les pilotes publics NVIDIA - Amazon Elastic Compute Cloud

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Installez les pilotes publics NVIDIA

Si ce qui est AWS Marketplace AMIs décrit dans la section Utilisation AMIs incluant les pilotes NVIDIA ne correspond pas à votre cas d'utilisation, vous pouvez installer les pilotes publics et apporter votre propre licence. Les options d'installation sont les suivantes :

 

Considérations relatives au type d'instance P6-B200

La plate-forme P6-B200 est unique en ce sens qu'elle expose les cartes d'interface réseau Mellanox ConnectX 7 () NICs à l'instance en tant que périphériques. PCIe Elles CX7 NICs n'agissent pas comme des interfaces réseau classiques mais fonctionnent plutôt comme NVSwitch des ponts fournissant un chemin de contrôle pour initialiser et configurer NVFabric, qui est la NVLink topologie de l'interconnexion GPU.

Pour initialiser complètement le système, le NVIDIA Fabric Manager doit configurer NVFabric et établir la NVSwitch topologie. Cela permet aux modules InfiniBand du noyau de communiquer avec les CX7 périphériques.

NVIDIA Fabric Manager est inclus dans le kit d'outils CUDA. Nous recommandons Option 2 : Installation avec le kit d'outils CUDA ce type d'instance.

Option 1 : installation par pilote uniquement

Pour installer un pilote spécifique, connectez-vous à votre instance et téléchargez le pilote public NVIDIA 64 bits correspondant au type d'instance sur http://www.nvidia. com/Download/Find.aspx. Pour le type de produit, la série de produits et le produit, utilisez les options indiquées dans le tableau suivant.

Suivez ensuite les instructions d'installation du référentiel local du guide d'installation du pilote NVIDIA.

Note

Les types d'instances P6-B200 nécessitent l'installation et la configuration de packages supplémentaires fournis avec le kit d'outils NVIDIA CUDA. Pour plus d'informations, consultez les instructions relatives à votre distribution Linux dansOption 2 : Installation avec le kit d'outils CUDA.

Instance Type de produit Série de produit Produit Version minimale du pilote
G3 Tesla M-Class M60 --
G4dn Tesla T-Series T4 --
G5 Tesla Série A A10 470.00 ou version ultérieure
G5 g 1 Tesla T-Series NVIDIA T4G 470.82.01 ou version ultérieure
G6 Tesla Série L L4 525.0 ou version ultérieure
G6e Tesla Série L L40S 535.0 ou version ultérieure
Gr6 Tesla Série L L4 525.0 ou version ultérieure
P2 Tesla Série K K80 --
P3 Tesla Série V V100 --
P4d Tesla Série A A100 --
P4de Tesla Série A A100 --
P5 Tesla Série H H100 530 ou version ultérieure
P5e Tesla Série H H200 550 ou version ultérieure
P5en Tesla Série H H200 550 ou version ultérieure
P6-B200 2 Tesla Série HGX B200 570 ou version ultérieure
P6e-00 GB2 Tesla Série HGX B200 570 ou version ultérieure

1 Le système d’exploitation des instances G5g est Linux aarch64.

2 Pour les types d'instances P6-B200, des exigences d'installation supplémentaires sont requises pour configurer NVIDIA Fabric Manager.

Option 2 : Installation avec le kit d'outils CUDA

Les instructions d'installation varient légèrement selon le système d'exploitation. Pour installer des pilotes publics sur votre instance à l'aide du kit d'outils NVIDIA CUDA, suivez les instructions du système d'exploitation de votre instance. Pour les systèmes d'exploitation qui ne figurent pas ici, suivez les instructions relatives à votre système d'exploitation et à l'architecture du type d'instance sur le site Web des développeurs NVIDIA. Pour plus d'informations, consultez la section Téléchargements de la boîte à outils CUDA.

Pour connaître l'architecture du type d'instance ou d'autres spécifications, consultez les spécifications relatives au calcul accéléré dans la référence Amazon EC2 Instance Types.

Cette section couvre l'installation du kit d'outils NVIDIA CUDA sur une instance Amazon Linux 2023. Les exemples de commandes présentés dans cette section sont basés sur une x86_64 architecture.

Pour arm64-sbsa les commandes, consultez la section Téléchargements de la boîte à outils CUDA et sélectionnez les options qui s'appliquent à votre distribution. Les instructions apparaissent une fois que vous avez effectué votre sélection finale.

Prérequis

Avant d'installer le kit d'outils et les pilotes, exécutez la commande suivante pour vous assurer que vous disposez de la bonne version des en-têtes du noyau et des packages de développement.

[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
Téléchargez le kit d'outils et les pilotes

Choisissez le type d'installation à utiliser pour votre instance, puis suivez les étapes associées.

RPM local installation

Vous pouvez suivre ces instructions pour télécharger le bundle du référentiel d'installation du kit d'installation CUDA sur votre instance, puis extraire et enregistrer le bundle spécifié.

Pour consulter les instructions sur le site Web des développeurs de NVIDIA, consultez la section Téléchargements du CUDA Toolkit.

[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm [ec2-user ~]$ sudo rpm -i cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm
RPM network installation

Vous pouvez suivre ces instructions pour enregistrer le référentiel CUDA auprès du gestionnaire de packages de votre instance. Lorsque vous exécutez les étapes d'installation, le gestionnaire de packages télécharge uniquement les packages requis.

Pour consulter les instructions sur le site Web des développeurs de NVIDIA, consultez la section Téléchargements du CUDA Toolkit.

[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb [ec2-user ~]$ sudo dpkg -i cuda-keyring_1.1-1_all.deb

Les étapes restantes sont les mêmes pour l'installation locale et en réseau.

  1. Terminez l'installation du kit d'outils CUDA

    [ec2-user ~]$ sudo dnf clean all [ec2-user ~]$ sudo dnf install cuda-toolkit -y
  2. Installez la variante du module à noyau ouvert du pilote

    [ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y
  3. Installation GPUDirect de Storage et Fabric Manager

    [ec2-user ~]$ sudo dnf install nvidia-gds -y [ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y
  4. Activer Fabric Manager et la persistance des pilotes

    [ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager [ec2-user ~]$ sudo systemctl enable nvidia-persistenced
  5. Configuration supplémentaire pour les types d'instances P6-B200 :

    Les types d'instances P6-B200 nécessitent l'installation et la configuration de packages supplémentaires fournis avec le kit d'outils NVIDIA CUDA.

    1. Installez le gestionnaire de sous-réseaux NVIDIA Link et. ibstat

      [ec2-user ~]$ sudo dnf install nvlink5
    2. Activez le chargement automatique du module Infiniband au démarrage.

      [ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
  6. Redémarrez l'instance

    [ec2-user ~]$ sudo reboot

Cette section couvre l'installation du kit d'outils NVIDIA CUDA sur une instance Ubuntu 24.04. Les exemples de commandes présentés dans cette section sont basés sur une x86_64 architecture.

Pour arm64-sbsa les commandes, consultez la section Téléchargements de la boîte à outils CUDA et sélectionnez les options qui s'appliquent à votre distribution. Les instructions apparaissent une fois que vous avez effectué votre sélection finale.

Prérequis

Avant d'installer le kit d'outils et les pilotes, exécutez la commande suivante pour vous assurer que vous disposez de la bonne version des en-têtes du noyau et des packages de développement.

$ apt install linux-headers-$(uname -r)
Téléchargez le kit d'outils et les pilotes

Choisissez le type d'installation à utiliser pour votre instance, puis suivez les étapes associées.

RPM local installation

Vous pouvez suivre ces instructions pour télécharger le bundle du référentiel d'installation du kit d'installation CUDA sur votre instance, puis extraire et enregistrer le bundle spécifié.

Pour consulter les instructions sur le site Web des développeurs de NVIDIA, consultez la section Téléchargements du CUDA Toolkit.

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-ubuntu2404.pin $ sudo mv cuda-ubuntu2404.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb $ sudo dpkg -i cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb $ sudo cp /var/cuda-repo-ubuntu2404-13-0-local/cuda-*-keyring.gpg /usr/share/keyrings/
RPM network installation

Vous pouvez suivre ces instructions pour enregistrer le référentiel CUDA auprès du gestionnaire de packages de votre instance. Lorsque vous exécutez les étapes d'installation, le gestionnaire de packages télécharge uniquement les packages requis.

Pour consulter les instructions sur le site Web des développeurs de NVIDIA, consultez la section Téléchargements du CUDA Toolkit.

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb $ sudo dpkg -i cuda-keyring_1.1-1_all.deb

Les étapes restantes sont les mêmes pour l'installation locale et en réseau.

  1. Terminez l'installation du kit d'outils CUDA

    $ sudo apt update $ sudo apt install cuda-toolkit -y
  2. Installez la variante du module à noyau ouvert du pilote

    $ sudo apt install nvidia-open -y
  3. Installation GPUDirect de Storage et Fabric Manager

    $ sudo apt install nvidia-gds -y $ sudo apt install nvidia-fabricmanager -y
  4. Activer Fabric Manager et la persistance des pilotes

    $ sudo systemctl enable nvidia-fabricmanager $ sudo systemctl enable nvidia-persistenced
  5. Configuration supplémentaire pour les types d'instances P6-B200 :

    Les types d'instances P6-B200 nécessitent l'installation et la configuration de packages supplémentaires fournis avec le kit d'outils NVIDIA CUDA.

    1. Installez le dernier pilote de périphérique (mlx5_ib) et les utilitaires de diagnostic InfiniBand spécifiques.

      $ sudo apt install linux-modules-extra-$(uname -r) -y $ sudo apt install infiniband-diags -y
    2. Installez le gestionnaire de sous-réseaux NVIDIA Link.

      $ sudo apt install nvlsm -y
  6. Redémarrez l'instance

    sudo reboot
  7. Mettez à jour votre chemin et ajoutez la variable d'environnement suivante.

    $ export PATH=${PATH}:/usr/local/cuda-13.0/bin $ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64

Pour installer le pilote NVIDIA sous Windows, procédez comme suit :

  1. Ouvrez le dossier dans lequel vous avez téléchargé le pilote et lancez le fichier d’installation. Suivez les instructions pour installer le pilote et redémarrez votre instance le cas échéant.

  2. Désactivez la carte vidéo nommée Microsoft Basic Display Adapter qui est marquée d’une icône d’avertissement à l’aide du Gestionnaire de périphériques. Installez les fonctionnalités Windows : Media Foundation et Quality Windows Audio Video Experience.

    Important

    Ne désactivez pas la carte vidéo nommée Microsoft Remote Display Adapter. Si Microsoft Remote Display Adapter est désactivée, votre connexion peut s’interrompre et les tentatives de connexion à l’instance après son redémarrage peuvent échouer.

  3. Pour vous assurer que le GPU fonctionne correctement, vérifiez le Gestionnaire de périphériques.

  4. Effectuez les étapes d’optimisation de Optimisation des paramètres du GPU sur les EC2 instances Amazon pour bénéficier des meilleures performances de votre GPU.