Installieren Sie öffentliche NVIDIA-Treiber - Amazon Elastic Compute Cloud

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Installieren Sie öffentliche NVIDIA-Treiber

Wenn die AWS Marketplace AMIs unter beschriebenen Verwenden Sie AMIs dazu auch NVIDIA-Treiber Funktionen nicht zu Ihrem Anwendungsfall passen, können Sie die öffentlichen Treiber installieren und Ihre eigene Lizenz mitbringen. Zu den Installationsoptionen gehören die folgenden:

 

Überlegungen zum P6-B200-Instanztyp

Die P6-B200-Plattform ist insofern einzigartig, als sie der Instanz Mellanox ConnectX 7-Netzwerkschnittstellenkarten () als Geräte zur Verfügung stellt. NICs PCIe Diese fungieren CX7 NICs nicht als typische Netzwerkschnittstellen, sondern als NVSwitch Bridges, die einen Steuerpfad für die Initialisierung und Konfiguration der NVFabric, also der Topologie der GPU-Verbindung, bereitstellen. NVLink

Um das System vollständig zu initialisieren, muss der NVIDIA Fabric Manager die Topologie konfigurieren NVFabric und einrichten. NVSwitch Dadurch können InfiniBand Kernelmodule mit den CX7 Geräten kommunizieren.

NVIDIA Fabric Manager ist im CUDA-Toolkit enthalten. Wir empfehlen Option 2: Installation mit dem CUDA-Toolkit für diesen Instance-Typ.

Option 1: Installation nur über den Treiber

Um einen bestimmten Treiber zu installieren, melden Sie sich bei Ihrer Instanz an und laden Sie den öffentlichen 64-Bit-NVIDIA-Treiber für den Instance-Typ von http://www.nvidia herunter. com/Download/Find.aspx. Verwenden Sie für Produkttyp, Produktserie und Produkt die in der folgenden Tabelle aufgeführten Optionen.

Folgen Sie dann den Anweisungen zur Installation des lokalen Repositorys im NVIDIA-Treiberinstallationshandbuch.

Anmerkung

P6-B200-Instanztypen erfordern die Installation und Konfiguration zusätzlicher Pakete, die im Lieferumfang des NVIDIA CUDA Toolkit enthalten sind. Weitere Informationen finden Sie in den Anweisungen für Ihre Linux-Distribution unter. Option 2: Installation mit dem CUDA-Toolkit

Instance Produkttyp Produktserie Produkt Minimale Treiberversion
G3 Tesla M-Klasse M60 --
G4dn Tesla T-Series T4 --
G5 Tesla A-Serie A10 470.00 oder höher
G5g 1 Tesla T-Series NVIDIA T4G 470.82.01 oder höher
G6 Tesla L-Serie L4 525.0 oder höher
G6e Tesla L-Serie L40S 535.0 oder höher
Gr6 Tesla L-Serie L4 525.0 oder höher
P2 Tesla K-Serie K80 --
P3 Tesla V-Serie V100 --
P4d Tesla A-Serie A100 --
P4de Tesla A-Serie A100 --
P5 Tesla H-Serie H100 530 oder höher
P5e Tesla H-Serie H200 550 oder höher
P5en Tesla H-Serie H200 550 oder höher
P6-B200 2 Tesla HGX-Serie B200 570 oder später
P6e- 00 GB2 Tesla HGX-Serie B200 570 oder später

1 Das Betriebssystem für G5g-Instances ist Linux aarch64.

2 Für P6-B200-Instanztypen gelten zusätzliche Installationsanforderungen für die Konfiguration von NVIDIA Fabric Manager.

Option 2: Installation mit dem CUDA-Toolkit

Die Installationsanweisungen variieren je nach Betriebssystem geringfügig. Um öffentliche Treiber mit dem NVIDIA CUDA-Toolkit auf Ihrer Instance zu installieren, folgen Sie den Anweisungen für das Betriebssystem Ihrer Instanz. Folgen Sie zum Beispiel Betriebssystemen, die hier nicht aufgeführt sind, den Anweisungen für Ihr Betriebssystem und Ihre Instance-Typ-Architektur auf der NVIDIA Developer-Website. Weitere Informationen finden Sie unter CUDA Toolkit-Downloads.

Informationen zur Instance-Typ-Architektur oder anderen Spezifikationen finden Sie in den Spezifikationen für beschleunigte Datenverarbeitung in der EC2 Amazon-Instanztypen-Referenz.

Dieser Abschnitt behandelt die Installation eines NVIDIA CUDA-Toolkits auf einer Amazon Linux 2023-Instance. Die Befehlsbeispiele in diesem Abschnitt basieren auf einer x86_64 Architektur.

arm64-sbsaBefehle finden Sie unter CUDA Toolkit-Downloads und wählen Sie die Optionen aus, die für Ihre Distribution gelten. Anweisungen werden angezeigt, nachdem Sie Ihre endgültige Auswahl getroffen haben.

Voraussetzung

Führen Sie vor der Installation des Toolkits und der Treiber den folgenden Befehl aus, um sicherzustellen, dass Sie über die richtige Version der Kernel-Header und Entwicklungspakete verfügen.

[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
Laden Sie das Toolkit und die Treiber herunter

Wählen Sie den Installationstyp aus, den Sie für Ihre Instanz verwenden möchten, und folgen Sie den entsprechenden Schritten.

RPM local installation

Sie können diesen Anweisungen folgen, um das CUDA-Toolkit-Installer-Repository-Paket auf Ihre Instance herunterzuladen und anschließend das angegebene Paket zu extrahieren und zu registrieren.

Anweisungen finden Sie auf der NVIDIA-Entwickler-Website unter CUDA Toolkit-Downloads.

[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm [ec2-user ~]$ sudo rpm -i cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm
RPM network installation

Sie können diesen Anweisungen folgen, um das CUDA-Repository beim Paketmanager auf Ihrer Instance zu registrieren. Wenn Sie die Installationsschritte ausführen, lädt der Paketmanager nur die benötigten Pakete herunter.

Anweisungen finden Sie auf der NVIDIA-Entwickler-Website unter CUDA Toolkit-Downloads.

[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb [ec2-user ~]$ sudo dpkg -i cuda-keyring_1.1-1_all.deb

Die verbleibenden Schritte sind für die lokale Installation und die Netzwerkinstallation identisch.

  1. Schließen Sie die Installation des CUDA-Toolkits ab

    [ec2-user ~]$ sudo dnf clean all [ec2-user ~]$ sudo dnf install cuda-toolkit -y
  2. Installieren Sie die offene Kernel-Modulvariante des Treibers

    [ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y
  3. Installieren Sie GPUDirect Storage und Fabric Manager

    [ec2-user ~]$ sudo dnf install nvidia-gds -y [ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y
  4. Aktivieren Sie Fabric Manager und Treiberpersistenz

    [ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager [ec2-user ~]$ sudo systemctl enable nvidia-persistenced
  5. Zusätzliche Konfiguration für P6-B200-Instanztypen:

    P6-B200-Instance-Typen erfordern die Installation und Konfiguration zusätzlicher Pakete, die im NVIDIA CUDA Toolkit enthalten sind.

    1. Installieren Sie den NVIDIA Link Subnet Manager und. ibstat

      [ec2-user ~]$ sudo dnf install nvlink5
    2. Aktivieren Sie das automatische Laden des Infiniband-Moduls beim Start.

      [ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
  6. Starten Sie die Instanz neu

    [ec2-user ~]$ sudo reboot

Dieser Abschnitt behandelt die Installation eines NVIDIA CUDA-Toolkits auf einer Ubuntu 24.04-Instanz. Die Befehlsbeispiele in diesem Abschnitt basieren auf einer Architektur. x86_64

arm64-sbsaBefehle finden Sie unter CUDA Toolkit-Downloads und wählen Sie die Optionen aus, die für Ihre Distribution gelten. Anweisungen werden angezeigt, nachdem Sie Ihre endgültige Auswahl getroffen haben.

Voraussetzung

Führen Sie vor der Installation des Toolkits und der Treiber den folgenden Befehl aus, um sicherzustellen, dass Sie über die richtige Version der Kernel-Header und Entwicklungspakete verfügen.

$ apt install linux-headers-$(uname -r)
Laden Sie das Toolkit und die Treiber herunter

Wählen Sie den Installationstyp aus, den Sie für Ihre Instanz verwenden möchten, und folgen Sie den entsprechenden Schritten.

RPM local installation

Sie können diesen Anweisungen folgen, um das CUDA-Toolkit-Installer-Repository-Paket auf Ihre Instance herunterzuladen und anschließend das angegebene Paket zu extrahieren und zu registrieren.

Anweisungen finden Sie auf der NVIDIA-Entwickler-Website unter CUDA Toolkit-Downloads.

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-ubuntu2404.pin $ sudo mv cuda-ubuntu2404.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb $ sudo dpkg -i cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb $ sudo cp /var/cuda-repo-ubuntu2404-13-0-local/cuda-*-keyring.gpg /usr/share/keyrings/
RPM network installation

Sie können diesen Anweisungen folgen, um das CUDA-Repository beim Paketmanager auf Ihrer Instance zu registrieren. Wenn Sie die Installationsschritte ausführen, lädt der Paketmanager nur die benötigten Pakete herunter.

Anweisungen finden Sie auf der NVIDIA-Entwickler-Website unter CUDA Toolkit-Downloads.

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb $ sudo dpkg -i cuda-keyring_1.1-1_all.deb

Die verbleibenden Schritte sind für die lokale Installation und die Netzwerkinstallation identisch.

  1. Schließen Sie die Installation des CUDA-Toolkits ab

    $ sudo apt update $ sudo apt install cuda-toolkit -y
  2. Installieren Sie die offene Kernel-Modulvariante des Treibers

    $ sudo apt install nvidia-open -y
  3. Installieren Sie GPUDirect Storage und Fabric Manager

    $ sudo apt install nvidia-gds -y $ sudo apt install nvidia-fabricmanager -y
  4. Aktivieren Sie Fabric Manager und Treiberpersistenz

    $ sudo systemctl enable nvidia-fabricmanager $ sudo systemctl enable nvidia-persistenced
  5. Zusätzliche Konfiguration für P6-B200-Instanztypen:

    P6-B200-Instance-Typen erfordern die Installation und Konfiguration zusätzlicher Pakete, die im NVIDIA CUDA Toolkit enthalten sind.

    1. Installieren Sie den neuesten InfiniBand -spezifischen Gerätetreiber () und die neuesten Diagnoseprogramme. mlx5_ib

      $ sudo apt install linux-modules-extra-$(uname -r) -y $ sudo apt install infiniband-diags -y
    2. Installieren Sie den NVIDIA Link Subnet Manager.

      $ sudo apt install nvlsm -y
  6. Starten Sie die Instanz neu

    sudo reboot
  7. Aktualisieren Sie Ihren Pfad und fügen Sie die folgende Umgebungsvariable hinzu.

    $ export PATH=${PATH}:/usr/local/cuda-13.0/bin $ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64

Zur Installation des NVIDIA-Treibers unter Windows führen Sie die folgenden Schritte aus:

  1. Öffnen Sie das Verzeichnis, in das Sie den Treiber heruntergeladen haben, und starten Sie die Installationsdatei. Befolgen Sie die Anweisungen, um den Treiber zu installieren, und starten Sie die Instance neu, wenn Sie dazu aufgefordert werden.

  2. Deaktivieren Sie im Geräte-Manager den Displayadapter mit dem Namen Microsoft Basic Display Adapter, der mit einem Warnsymbol gekennzeichnet ist. Installieren Sie die folgenden Windows-Features: Media Foundation und Quality Windows Audio Video Experience.

    Wichtig

    Deaktivieren Sie nicht den Displayadapter mit dem Namen Microsoft Remote Display Adapter. Wenn der Microsoft Remote Display Adapter deaktiviert ist, wird Ihre Verbindung möglicherweise unterbrochen und Versuche, nach dem Neustart eine Verbindung zur Instance herzustellen, schlagen möglicherweise fehl.

  3. Prüfen Sie im Geräte-Manager, ob die GPU korrekt funktioniert.

  4. Führen Sie die Optimierungsschritte unter Optimieren Sie die GPU-Einstellungen auf EC2 Amazon-Instances aus, um die beste Leistung für Ihre GPU zu erzielen.