Installa i driver pubblici NVIDIA - Amazon Elastic Compute Cloud

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Installa i driver pubblici NVIDIA

Se quanto Marketplace AWS AMIs descritto in Utilizzalo per includere AMIs i driver NVIDIA non si adatta al tuo caso d'uso, puoi installare i driver pubblici e portare la tua licenza. Le opzioni di installazione includono quanto segue:

 

Considerazioni sul tipo di istanza P6-B200

La piattaforma P6-B200 è unica in quanto espone le schede di interfaccia di rete Mellanox ConnectX 7 () all'istanza come dispositivi. NICs PCIe Queste CX7 NICs non agiscono come tipiche interfacce di rete, ma fungono invece da NVSwitch bridge che forniscono un percorso di controllo per inizializzare e configurare la, che è la topologia dell' NVFabricinterconnessione GPU. NVLink

Per inizializzare completamente il sistema, NVIDIA Fabric Manager deve configurare e stabilire la topologia. NVFabric NVSwitch Ciò consente ai moduli InfiniBand del kernel di comunicare con i dispositivi. CX7

NVIDIA Fabric Manager è incluso nel toolkit CUDA. Consigliamo Opzione 2: installazione con il toolkit CUDA per questo tipo di istanza.

Opzione 1: installazione solo tramite driver

Per installare un driver specifico, accedi all'istanza e scarica il driver pubblico NVIDIA a 64 bit per il tipo di istanza da http://www.nvidia. com/Download/Find.aspx. Per Tipo di prodotto, Serie di prodotti e Prodotto, utilizzate le opzioni mostrate nella tabella seguente.

Quindi segui le istruzioni di installazione del Local Repository nella Guida all'installazione dei driver NVIDIA.

Nota

I tipi di istanze P6-B200 richiedono l'installazione e la configurazione di pacchetti aggiuntivi forniti in bundle con NVIDIA CUDA Toolkit. Per ulteriori informazioni, consulta le istruzioni per la tua distribuzione Linux in. Opzione 2: installazione con il toolkit CUDA

Istanza Tipo di prodotto Serie di prodotti Prodotto Versione driver minima
G3 Tesla M-Class M60 --
G4dn Tesla T-Series T4 --
G5 Tesla Serie A A10 470.00 o versioni successive
G+5 g (1) Tesla T-Series NVIDIA T4G 470.82.01 o versioni successive
G6 Tesla Serie L L4 525.0 o versioni successive
G6e Tesla Serie L L40S 535.0 o versioni successive
Gr6 Tesla Serie L L4 525.0 o versioni successive
P2 Tesla Serie K K80 --
P3 Tesla Serie V V100 --
P4d Tesla Serie A A100 --
P4de Tesla Serie A A100 --
P5 Tesla Serie H H100 530 o versioni successive
P5e Tesla Serie H H200 550 o versioni successive
P5en Tesla Serie H H200 550 o versioni successive
P6-B200 2 Tesla Serie HGX B200 570 o versione successiva
P6e-00 GB2 Tesla Serie HGX B200 570 o versione successiva

1 Il sistema operativo per le istanze G5g è Linux aarch64.

2 Per i tipi di istanze P6-B200, esistono requisiti di installazione aggiuntivi per configurare NVIDIA Fabric Manager.

Opzione 2: installazione con il toolkit CUDA

Le istruzioni di installazione variano leggermente in base al sistema operativo. Per installare driver pubblici sulla tua istanza con il toolkit NVIDIA CUDA, segui le istruzioni relative al sistema operativo dell'istanza. Ad esempio, i sistemi operativi che non sono mostrati qui, segui le istruzioni per il tuo sistema operativo e l'architettura del tipo di istanza sul sito web di NVIDIA Developer. Per ulteriori informazioni, consulta CUDA Toolkit Downloads.

Per l'architettura del tipo di istanza o altre specifiche, consulta le specifiche di calcolo accelerato nel riferimento Amazon EC2 Instance Types.

Questa sezione tratta l'installazione di un toolkit NVIDIA CUDA su un'istanza Amazon Linux 2023. Gli esempi di comandi in questa sezione si basano su un'architettura. x86_64

Per arm64-sbsa i comandi, consultate CUDA Toolkit Downloads e selezionate le opzioni che si applicano alla vostra distribuzione. Le istruzioni vengono visualizzate dopo aver effettuato la selezione finale.

Prerequisito

Prima di installare il toolkit e i driver, esegui il seguente comando per assicurarti di avere la versione corretta degli header del kernel e dei pacchetti di sviluppo.

[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
Scaricate il toolkit e i driver

Scegli il tipo di installazione da utilizzare per la tua istanza e segui i passaggi associati.

RPM local installation

Puoi seguire queste istruzioni per scaricare il pacchetto del repository di installazione del toolkit CUDA sulla tua istanza, quindi estrarre e registrare il pacchetto specificato.

Per visualizzare le istruzioni sul sito Web per sviluppatori NVIDIA, consulta CUDA Toolkit Downloads.

[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm [ec2-user ~]$ sudo rpm -i cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm
RPM network installation

Puoi seguire queste istruzioni per registrare il repository CUDA con il gestore di pacchetti sulla tua istanza. Quando si eseguono i passaggi di installazione, il gestore di pacchetti scarica solo i pacchetti necessari.

Per visualizzare le istruzioni sul sito Web per sviluppatori NVIDIA, consulta CUDA Toolkit Downloads.

[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb [ec2-user ~]$ sudo dpkg -i cuda-keyring_1.1-1_all.deb

I passaggi rimanenti sono gli stessi sia per l'installazione locale che per quella di rete.

  1. Completa l'installazione del toolkit CUDA

    [ec2-user ~]$ sudo dnf clean all [ec2-user ~]$ sudo dnf install cuda-toolkit -y
  2. Installa la variante del driver relativa al modulo open kernel

    [ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y
  3. Installa GPUDirect Storage and Fabric Manager

    [ec2-user ~]$ sudo dnf install nvidia-gds -y [ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y
  4. Abilita Fabric Manager e la persistenza dei driver

    [ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager [ec2-user ~]$ sudo systemctl enable nvidia-persistenced
  5. Configurazione aggiuntiva per i tipi di istanze P6-B200:

    I tipi di istanze P6-B200 richiedono l'installazione e la configurazione di pacchetti aggiuntivi forniti in bundle con NVIDIA CUDA Toolkit.

    1. Installa NVIDIA Link Subnet Manager e. ibstat

      [ec2-user ~]$ sudo dnf install nvlink5
    2. Abilita il caricamento automatico del modulo Infiniband all'avvio.

      [ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
  6. Riavviare l'istanza

    [ec2-user ~]$ sudo reboot

Questa sezione tratta l'installazione di un toolkit NVIDIA CUDA su un'istanza di Ubuntu 24.04. Gli esempi di comandi in questa sezione si basano su un'architettura. x86_64

Per arm64-sbsa i comandi, consultate CUDA Toolkit Downloads e selezionate le opzioni che si applicano alla vostra distribuzione. Le istruzioni vengono visualizzate dopo aver effettuato la selezione finale.

Prerequisito

Prima di installare il toolkit e i driver, esegui il seguente comando per assicurarti di avere la versione corretta degli header del kernel e dei pacchetti di sviluppo.

$ apt install linux-headers-$(uname -r)
Scaricate il toolkit e i driver

Scegli il tipo di installazione da utilizzare per la tua istanza e segui i passaggi associati.

RPM local installation

Puoi seguire queste istruzioni per scaricare il pacchetto del repository di installazione del toolkit CUDA sulla tua istanza, quindi estrarre e registrare il pacchetto specificato.

Per visualizzare le istruzioni sul sito Web per sviluppatori NVIDIA, consulta CUDA Toolkit Downloads.

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-ubuntu2404.pin $ sudo mv cuda-ubuntu2404.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb $ sudo dpkg -i cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb $ sudo cp /var/cuda-repo-ubuntu2404-13-0-local/cuda-*-keyring.gpg /usr/share/keyrings/
RPM network installation

Puoi seguire queste istruzioni per registrare il repository CUDA con il gestore di pacchetti sulla tua istanza. Quando si eseguono i passaggi di installazione, il gestore di pacchetti scarica solo i pacchetti necessari.

Per visualizzare le istruzioni sul sito Web per sviluppatori NVIDIA, consulta CUDA Toolkit Downloads.

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb $ sudo dpkg -i cuda-keyring_1.1-1_all.deb

I passaggi rimanenti sono gli stessi sia per l'installazione locale che per quella di rete.

  1. Completa l'installazione del toolkit CUDA

    $ sudo apt update $ sudo apt install cuda-toolkit -y
  2. Installa la variante del driver relativa al modulo open kernel

    $ sudo apt install nvidia-open -y
  3. Installa GPUDirect Storage and Fabric Manager

    $ sudo apt install nvidia-gds -y $ sudo apt install nvidia-fabricmanager -y
  4. Abilita Fabric Manager e la persistenza dei driver

    $ sudo systemctl enable nvidia-fabricmanager $ sudo systemctl enable nvidia-persistenced
  5. Configurazione aggiuntiva per i tipi di istanze P6-B200:

    I tipi di istanze P6-B200 richiedono l'installazione e la configurazione di pacchetti aggiuntivi forniti in bundle con NVIDIA CUDA Toolkit.

    1. Installa i driver di dispositivo InfiniBand specifici () e le utilità di diagnostica più recenti. mlx5_ib

      $ sudo apt install linux-modules-extra-$(uname -r) -y $ sudo apt install infiniband-diags -y
    2. Installa NVIDIA Link Subnet Manager.

      $ sudo apt install nvlsm -y
  6. Riavviare l'istanza

    sudo reboot
  7. Aggiorna il percorso e aggiungi la seguente variabile di ambiente.

    $ export PATH=${PATH}:/usr/local/cuda-13.0/bin $ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64

Per installare il driver NVIDIA su Windows, segui questi passaggi:

  1. Aprire la cartella in cui è stato scaricato il driver e avviare il file di installazione. Seguire le istruzioni per installare il driver e riavviare l'istanza come necessario.

  2. Disabilita la scheda video denominata Scheda video di base Microsoft contrassegnata da un'icona di avviso utilizzando Gestione dispositivi. Installare le funzionalità Windows Media Foundation e Quality Windows Audio Video Experience.

    Importante

    Non disattivare la scheda video denominata Scheda video remota di Microsoft. Se la Scheda video remota di Microsoft è disabilitata, la connessione potrebbe essere interrotta e i tentativi di connessione all'istanza dopo il riavvio potrebbero fallire.

  3. Aprire Gestione dispositivi per verificare che la GPU funzioni correttamente.

  4. Per ottenere prestazioni ottimali dalla GPU, completare le fasi di ottimizzazione in Ottimizza le impostazioni della GPU sulle istanze Amazon EC2 .