Instalação de drivers públicos da NVIDIA - Amazon Elastic Compute Cloud

Instalação de drivers públicos da NVIDIA

Se as AMIs do AWS Marketplace descritas em Uso de AMIs que incluem drivers da NVIDIA não se adequarem ao seu caso de uso, você pode instalar os drivers públicos e trazer sua própria licença. As opções de instalação são as seguintes:

 

Considerações sobre o tipo de instância P6-B200

A plataforma P6-B200 é única porque expõe as placas de interface de rede (NICs) Mellanox ConnectX 7 à instância como dispositivos PCIe. Essas NICs CX7 não atuam como interfaces de rede típicas, mas funcionam como pontes NVSwitch, fornecendo um caminho de controle para inicializar e configurar o NVFabric, que é a topologia NVLink da interconexão da GPU.

Para inicializar totalmente o sistema, o NVIDIA Fabric Manager deve configurar o NVFabric e estabelecer a topologia NVSwitch. Isso permite que os módulos do kernel InfiniBand se comuniquem com os dispositivos CX7.

O NVIDIA Fabric Manager está incluso no kit de ferramentas CUDA. Recomendamos Opção 2: instalação com o kit de ferramentas para CUDA para este tipo de instância.

Opção 1: instalação apenas do driver

Para instalar um driver específico, acesse sua instância e faça o download do driver público da NVIDIA de 64 bits correspondente ao tipo de instância em http://www.nvidia.com/Download/Find.aspx. Para Tipo de produto, Série do produto e Produto, selecione as opções apresentadas na tabela a seguir.

Em seguida, siga as instruções de instalação do repositório local no NVIDIA Driver Installation Guide.

nota

Os tipos de instância P6-B200 exigem a instalação e a configuração de pacotes adicionais incluídos no NVIDIA CUDA Toolkit. Para obter mais informações, consulte as instruções específicas para sua distribuição Linux em Opção 2: instalação com o kit de ferramentas para CUDA.

Instância Tipo de produto Séries de produtos Produto Versão mínima do driver
G3 Tesla M-Class M60 --
G4dn Tesla Série T T4 --
G5 Tesla A-Series A10 470.00 ou posterior
G5g1 Tesla Série T NVIDIA T4G 470.82.01 ou posterior
G6 Tesla L-Series L4 525.0 ou posterior
G6e Tesla L-Series L40S 535.0 ou posterior
Gr6 Tesla L-Series L4 525.0 ou posterior
P2 Tesla K-Series K80 --
P3 Tesla V-Series V100 --
P4d Tesla A-Series A100 --
P4de Tesla A-Series A100 --
P5 Tesla H-Series H100 530 ou posterior
P5e Tesla H-Series H200 550 ou posterior
P5en Tesla H-Series H200 550 ou posterior
P6-B2002 Tesla HGX-Series B200 570 ou posterior
P6e-GB200 Tesla HGX-Series B200 570 ou posterior

1 O sistema operacional para instâncias G5g é Linux aarch64.

2 Para os tipos de instância P6-B200, há requisitos adicionais de instalação para configurar o NVIDIA Fabric Manager.

Opção 2: instalação com o kit de ferramentas para CUDA

As instruções de instalação podem diferir um pouco dependendo do sistema operacional. Para instalar drivers públicos na sua instância usando o kit de ferramentas da NVIDIA CUDA, siga as instruções correspondentes ao sistema operacional da instância. Se o sistema operacional da sua instância não estiver listado, siga as instruções correspondentes ao sistema operacional e à arquitetura do tipo de instância no site do NVIDIA Developer. Para obter mais informações, consulte CUDA Toolkit Downloads.

Para obter informações sobre a arquitetura do tipo de instância ou outras especificações, consulte as especificações de computação acelerada na referência de Tipos de instâncias do Amazon EC2.

Esta seção aborda a instalação do kit de ferramentas da NVIDIA CUDA em uma instância do Amazon Linux 2023. Os exemplos de comandos apresentados nesta seção são baseados na arquitetura x86_64.

Para obter os comandos arm64-sbsa, consulte CUDA Toolkit Downloads e selecione as opções que se aplicam à sua distribuição. As instruções serão exibidas depois de você concluir a seleção final.

Pré-requisito

Antes de prosseguir com a instalação do kit de ferramentas e dos drivers, execute o comando abaixo para verificar se você tem a versão adequada dos cabeçalhos do kernel e dos pacotes de desenvolvimento.

[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
Download do kit de ferramentas e dos drivers

Escolha o tipo de instalação a ser usado na instância e siga as etapas correspondentes.

RPM local installation

Estas instruções permitem que você faça o download do pacote do repositório do instalador do kit de ferramentas para CUDA na sua instância, depois extraia e registre o pacote especificado.

Para acessar as instruções no site do NVIDIA Developer, consulte CUDA Toolkit Downloads.

[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm [ec2-user ~]$ sudo rpm -i cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm
RPM network installation

É possível seguir estas instruções para adicionar o repositório CUDA ao gerenciador de pacotes da sua instância. Durante a execução das etapas de instalação, o gerenciador de pacotes faz download somente dos pacotes requeridos.

Para acessar as instruções no site do NVIDIA Developer, consulte CUDA Toolkit Downloads.

[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb [ec2-user ~]$ sudo dpkg -i cuda-keyring_1.1-1_all.deb

As etapas finais são idênticas tanto para instalação local quanto para instalação em rede.

  1. Conclusão da instalação do kit de ferramentas para CUDA

    [ec2-user ~]$ sudo dnf clean all [ec2-user ~]$ sudo dnf install cuda-toolkit -y
  2. Instalação da variante de driver com módulo de kernel aberto

    [ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y
  3. Instalação do GPUDirect Storage e do Fabric Manager

    [ec2-user ~]$ sudo dnf install nvidia-gds -y [ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y
  4. Habilitação do Fabric Manager e da persistência do driver

    [ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager [ec2-user ~]$ sudo systemctl enable nvidia-persistenced
  5. Configuração adicional para tipos de instâncias P6-B200:

    Os tipos de instância P6-B200 exigem a instalação e a configuração de pacotes adicionais incluídos no NVIDIA CUDA Toolkit.

    1. Instale o NVIDIA Link Subnet Manager e ibstat.

      [ec2-user ~]$ sudo dnf install nvlink5
    2. Habilite o carregamento automático do módulo Infiniband na inicialização.

      [ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
  6. Reinicialize a instância.

    [ec2-user ~]$ sudo reboot

Esta seção aborda a instalação do kit de ferramentas da NVIDIA CUDA em uma instância do Ubuntu 24.04. Os exemplos de comandos apresentados nesta seção são baseados na arquitetura x86_64.

Para obter os comandos arm64-sbsa, consulte CUDA Toolkit Downloads e selecione as opções que se aplicam à sua distribuição. As instruções serão exibidas depois de você concluir a seleção final.

Pré-requisito

Antes de prosseguir com a instalação do kit de ferramentas e dos drivers, execute o comando abaixo para verificar se você tem a versão adequada dos cabeçalhos do kernel e dos pacotes de desenvolvimento.

$ apt install linux-headers-$(uname -r)
Download do kit de ferramentas e dos drivers

Escolha o tipo de instalação a ser usado na instância e siga as etapas correspondentes.

RPM local installation

Estas instruções permitem que você faça o download do pacote do repositório do instalador do kit de ferramentas para CUDA na sua instância, depois extraia e registre o pacote especificado.

Para acessar as instruções no site do NVIDIA Developer, consulte CUDA Toolkit Downloads.

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-ubuntu2404.pin $ sudo mv cuda-ubuntu2404.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb $ sudo dpkg -i cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb $ sudo cp /var/cuda-repo-ubuntu2404-13-0-local/cuda-*-keyring.gpg /usr/share/keyrings/
RPM network installation

É possível seguir estas instruções para adicionar o repositório CUDA ao gerenciador de pacotes da sua instância. Durante a execução das etapas de instalação, o gerenciador de pacotes faz download somente dos pacotes requeridos.

Para acessar as instruções no site do NVIDIA Developer, consulte CUDA Toolkit Downloads.

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb $ sudo dpkg -i cuda-keyring_1.1-1_all.deb

As etapas finais são idênticas tanto para instalação local quanto para instalação em rede.

  1. Conclusão da instalação do kit de ferramentas para CUDA

    $ sudo apt update $ sudo apt install cuda-toolkit -y
  2. Instalação da variante de driver com módulo de kernel aberto

    $ sudo apt install nvidia-open -y
  3. Instalação do GPUDirect Storage e do Fabric Manager

    $ sudo apt install nvidia-gds -y $ sudo apt install nvidia-fabricmanager -y
  4. Habilitação do Fabric Manager e da persistência do driver

    $ sudo systemctl enable nvidia-fabricmanager $ sudo systemctl enable nvidia-persistenced
  5. Configuração adicional para tipos de instâncias P6-B200:

    Os tipos de instância P6-B200 exigem a instalação e a configuração de pacotes adicionais incluídos no NVIDIA CUDA Toolkit.

    1. Instale o driver mais recente específico para InfiniBand (mlx5_ib) e as ferramentas de diagnóstico.

      $ sudo apt install linux-modules-extra-$(uname -r) -y $ sudo apt install infiniband-diags -y
    2. Instale o NVIDIA Link Subnet Manager.

      $ sudo apt install nvlsm -y
  6. Reinicialize a instância.

    sudo reboot
  7. Atualize o caminho do sistema e inclua a variável de ambiente apresentada a seguir.

    $ export PATH=${PATH}:/usr/local/cuda-13.0/bin $ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64

Para instalar o driver da NVIDIA no Windows, siga estas etapas:

  1. Abra a pasta onde você fez download do driver e execute o arquivo de instalação. Siga as instruções para instalar o driver e reinicialize sua instância, conforme necessário.

  2. Desabilite o adaptador de vídeo chamado Microsoft Basic Display Adapter, que está marcado com um ícone de aviso, usando o Gerenciador de dispositivos. Instale esses recursos do Windows: Media Foundation e Quality Windows Audio Video Experience.

    Importante

    Não desabilite o adaptador de vídeo chamado Microsoft Remote Display Adapter. Se o Microsoft Remote Display Adapter estiver desabilitado, sua conexão poderá ser interrompida e as tentativas de conexão com a instância após a reinicialização poderão falhar.

  3. Verifique o gerenciador de dispositivos para certificar-se de que a GPU está funcionando corretamente.

  4. Para obter a melhor performance na GPU, siga as etapas de otimização em Otimização das configurações de GPU em instâncias do Amazon EC2.