Opção 1: instalação apenas do driver Opção 2: instalação do kit de ferramentas para CUDA

Instalação de drivers públicos da NVIDIA

Se as AMIs do AWS Marketplace descritas em Uso de AMIs que incluem drivers da NVIDIA não se adequarem ao seu caso de uso, você pode instalar os drivers públicos e trazer sua própria licença. As opções de instalação são as seguintes:

Opção 1: instalação apenas do driver
Opção 2: instalação com o kit de ferramentas para CUDA (recomendada para distribuições Linux)

Considerações sobre o tipo de instância P6-B200 e P6-B300

As plataformas P6-B200 e P6-B300 são únicas porque expõem as placas de interface de rede (NICs) Mellanox ConnectX à instância como dispositivos PCIe. Essas NICs não atuam como interfaces de rede típicas, mas funcionam como pontes NVSwitch, fornecendo um caminho de controle para inicializar e configurar o NVFabric, que é a topologia NVLink da interconexão da GPU.

Para inicializar totalmente o sistema, o NVIDIA Fabric Manager deve configurar o NVFabric e estabelecer a topologia NVSwitch. Isso permite que os módulos do kernel InfiniBand se comuniquem com as NICs Mellanox ConnectX.

O NVIDIA Fabric Manager está incluso no kit de ferramentas CUDA. Recomendamos Opção 2: instalação com o kit de ferramentas para CUDA para este tipo de instância.

Opção 1: instalação apenas do driver

Para instalar um driver específico, acesse sua instância e faça o download do driver público da NVIDIA de 64 bits correspondente ao tipo de instância em http://www.nvidia.com/Download/Find.aspx. Para Tipo de produto, Série do produto e Produto, selecione as opções apresentadas na tabela a seguir.

Em seguida, siga as instruções de instalação do repositório local no NVIDIA Driver Installation Guide.

nota

Os tipos de instância P6-B200 e P6-B300 exigem a instalação e a configuração de pacotes adicionais incluídos no NVIDIA CUDA Toolkit. Para obter mais informações, consulte as instruções específicas para sua distribuição Linux em Opção 2: instalação com o kit de ferramentas para CUDA.

Instância	Tipo de produto	Séries de produtos	Produto	Versão mínima do driver
G3	Tesla	M-Class	M60	--
G4dn	Tesla	Série T	T4	--
G5	Tesla	A-Series	A10	470.00 ou posterior
G5g¹	Tesla	Série T	T4G	470.82.01 ou posterior
G6	Tesla	L-Series	L4	525.0 ou posterior
G6e	Tesla	L-Series	L40S	535.0 ou posterior
Gr6	Tesla	L-Series	L4	525.0 ou posterior
G7e	Tesla	Série RTX	RTX PRO 6000 Blackwell	575.0 ou posterior
P2	Tesla	K-Series	K80	--
P3	Tesla	V-Series	V100	--
P4d	Tesla	A-Series	A100	--
P4de	Tesla	A-Series	A100	--
P5	Tesla	H-Series	H100	530 ou posterior
P5e	Tesla	H-Series	H200	550 ou posterior
P5en	Tesla	H-Series	H200	550 ou posterior
P6-B200²	Tesla	HGX-Series	B200	570 ou posterior
P6e-GB200	Tesla	HGX-Series	B200	570 ou posterior
P6-B300²	Tesla	HGX-Series	B300	580 ou posterior

¹ O sistema operacional para instâncias G5g é Linux aarch64.

² Para os tipos de instância P6-B200 e P6-B300, há requisitos adicionais de instalação para configurar o NVIDIA Fabric Manager.

Opção 2: instalação com o kit de ferramentas para CUDA

As instruções de instalação podem diferir um pouco dependendo do sistema operacional. Para instalar drivers públicos na sua instância usando o kit de ferramentas da NVIDIA CUDA, siga as instruções correspondentes ao sistema operacional da instância. Se o sistema operacional da sua instância não estiver listado, siga as instruções correspondentes ao sistema operacional e à arquitetura do tipo de instância no site do NVIDIA Developer. Para obter mais informações, consulte CUDA Toolkit Downloads.

Para obter informações sobre a arquitetura do tipo de instância ou outras especificações, consulte as especificações de computação acelerada na referência de Tipos de instâncias do Amazon EC2.

Esta seção aborda a instalação do kit de ferramentas da NVIDIA CUDA em uma instância do Amazon Linux 2023. Os exemplos de comandos apresentados nesta seção são baseados na arquitetura x86_64.

Para obter os comandos arm64-sbsa, consulte CUDA Toolkit Downloads e selecione as opções que se aplicam à sua distribuição. As instruções serão exibidas depois de você concluir a seleção final.

Pré-requisito

Antes de prosseguir com a instalação do kit de ferramentas e dos drivers, execute o comando abaixo para verificar se você tem a versão adequada dos cabeçalhos do kernel e dos pacotes de desenvolvimento.


[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y

Download do kit de ferramentas e dos drivers

Escolha o tipo de instalação a ser usado na instância e siga as etapas correspondentes.

As etapas finais são idênticas tanto para instalação local quanto para instalação em rede.

Conclusão da instalação do kit de ferramentas para CUDA


[ec2-user ~]$ sudo dnf clean all
[ec2-user ~]$ sudo dnf install cuda-toolkit -y

Instalação da variante de driver com módulo de kernel aberto


[ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y

Instalação do GPUDirect Storage e do Fabric Manager


[ec2-user ~]$ sudo dnf install nvidia-gds -y
[ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y

Habilitação do Fabric Manager e da persistência do driver


[ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager
[ec2-user ~]$ sudo systemctl enable nvidia-persistenced

(somente P6-B200 e P6-B300) Esses tipos de instância exigem a instalação e a configuração de pacotes adicionais incluídos no NVIDIA CUDA Toolkit.
1. Instale o NVIDIA Link Subnet Manager e ibstat.
```
[ec2-user ~]$ sudo dnf install nvlink5
```
2. Habilite o carregamento automático do módulo Infiniband na inicialização.
```
[ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
```
Reinicialize a instância.
```
[ec2-user ~]$ sudo reboot
```

Esta seção aborda a instalação do kit de ferramentas da NVIDIA CUDA em uma instância do Ubuntu 24.04. Os exemplos de comandos apresentados nesta seção são baseados na arquitetura x86_64.

Pré-requisito


$ apt install linux-headers-$(uname -r)

Download do kit de ferramentas e dos drivers

Escolha o tipo de instalação a ser usado na instância e siga as etapas correspondentes.

As etapas finais são idênticas tanto para instalação local quanto para instalação em rede.

Conclusão da instalação do kit de ferramentas para CUDA
```
$ sudo apt update
$ sudo apt install cuda-toolkit -y
```
Instalação da variante de driver com módulo de kernel aberto
```
$ sudo apt install nvidia-open -y
```

Instalação do GPUDirect Storage e do Fabric Manager


$ sudo apt install nvidia-gds -y
$ sudo apt install nvidia-fabricmanager -y

Habilitação do Fabric Manager e da persistência do driver


$ sudo systemctl enable nvidia-fabricmanager
$ sudo systemctl enable nvidia-persistenced

(somente P6-B200 and P6-B300) Esses tipos de instância exigem a instalação e a configuração de pacotes adicionais incluídos no NVIDIA CUDA Toolkit.
1. Instale o driver mais recente específico para InfiniBand e as ferramentas de diagnóstico.
```
$ sudo apt install linux-modules-extra-$(uname -r) -y
$ sudo apt install infiniband-diags -y
```
2. Instale o NVIDIA Link Subnet Manager.
```
$ sudo apt install nvlsm -y
```
Reinicialize a instância.
```
sudo reboot
```

Atualize o caminho do sistema e inclua a variável de ambiente apresentada a seguir.


$ export PATH=${PATH}:/usr/local/cuda-13.0/bin
$ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64

Para instalar o driver da NVIDIA no Windows, siga estas etapas:

Abra a pasta onde você fez download do driver e execute o arquivo de instalação. Siga as instruções para instalar o driver e reinicialize sua instância, conforme necessário.
Desabilite o adaptador de vídeo chamado Microsoft Basic Display Adapter, que está marcado com um ícone de aviso, usando o Gerenciador de dispositivos. Instale esses recursos do Windows: Media Foundation e Quality Windows Audio Video Experience.

Importante
Não desabilite o adaptador de vídeo chamado Microsoft Remote Display Adapter. Se o Microsoft Remote Display Adapter estiver desabilitado, sua conexão poderá ser interrompida e as tentativas de conexão com a instância após a reinicialização poderão falhar.
Verifique o gerenciador de dispositivos para certificar-se de que a GPU está funcionando corretamente.
Para obter a melhor performance na GPU, siga as etapas de otimização em Otimização das configurações de GPU em instâncias do Amazon EC2.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

AMIs com drivers da NVIDIA

Instalação dos drivers GRID

Instalação de drivers públicos da NVIDIA

Considerações sobre o tipo de instância P6-B200 e P6-B300

Opção 1: instalação apenas do driver

nota

Opção 2: instalação com o kit de ferramentas para CUDA

Pré-requisito

Download do kit de ferramentas e dos drivers

Pré-requisito

Download do kit de ferramentas e dos drivers

Importante