Opción 1: instalación del controlador únicamente Opción 2: instalación mediante el kit de herramientas de CUDA

Instalación de controladores públicos NVIDIA

Si las AMI AWS Marketplace descritas en Uso de AMI que incluyan controladores NVIDIA no se ajustan a su caso de uso, puede instalar los controladores públicos y traer su propia licencia. Las opciones de instalación son las siguientes:

Opción 1: instalación del controlador únicamente
Opción 2: instalación con el kit de herramientas de CUDA (recomendado para distribuciones de Linux)

Consideraciones sobre los tipo de instancias P6-B200 y P6-B300

Las plataformas P6-B200 y P6-B300 son únicas porque exponen las tarjetas de interfaz de red (NIC) Mellanox ConnectX a la instancia como dispositivos PCIe. Estas NIC no actúan como interfaces de red típicas, sino que funcionan como puentes NVSwitch que proporcionan una ruta de control para inicializar y configurar la NVFabric, que es la topología NVLink de la interconexión de la GPU.

Para inicializar completamente el sistema, NVIDIA Fabric Manager debe configurar NVFabric y establecer la topología del NVSwitch. Esto permite que los módulos del núcleo InfiniBand se comuniquen con las NIC de Mellanox ConnectX.

El kit de herramientas de CUDA incluye NVIDIA Fabric Manager. Recomendamos Opción 2: instalación con el kit de herramientas de CUDA para este tipo de instancia.

Opción 1: instalación del controlador únicamente

Para instalar un controlador específico, inicie sesión en su instancia y descargue el controlador público NVIDIA de 64 bits para el tipo de instancia en http://www.nvidia.com/Download/Find.aspx. En Tipo de producto, Serie de producto y Producto, utilice las opciones que se muestran en la tabla siguiente.

A continuación, siga las instrucciones de Instalación del repositorio local de la Guía de instalación de controladores NVIDIA.

nota

Los tipos de instancias P6-B200 y P6-B300 requieren la instalación y configuración de paquetes adicionales que vienen agrupados con el kit de herramientas NVIDIA CUDA. Para obtener más información, consulte las instrucciones para su distribución de Linux en Opción 2: instalación con el kit de herramientas de CUDA.

Instancia	Tipo de producto	Serie de producto	Producto	Versión del controlador mínimo
G3	Tesla	Clase M	M60	--
G4dn	Tesla	Serie T	T4	--
G5	Tesla	Serie A	A10	470.00 o posterior
G5g¹	Tesla	Serie T	T4G	470.82.01 o posterior
G6	Tesla	Serie L	L4	525.0 o posterior
G6e	Tesla	Serie L	L40S	535.0 o posterior
Gr6	Tesla	Serie L	L4	525.0 o posterior
G7e	Tesla	Serie RTX	RTX PRO 6000 Blackwell	575.0 o posterior
P2	Tesla	Serie K	K80	--
P3	Tesla	Serie V	V100	--
P4d	Tesla	Serie A	A100	--
P4de	Tesla	Serie A	A100	--
P5	Tesla	Serie H	H100	530 o posterior
P5e	Tesla	Serie H	H200	550 o posterior
P5en	Tesla	Serie H	H200	550 o posterior
P6-B200²	Tesla	Serie HGX	B200	570 o posterior
P6e-GB200	Tesla	Serie HGX	B200	570 o posterior
P6-B300²	Tesla	Serie HGX	B300	580 o posterior

¹ El sistema operativo de las instancias G5g es Linux aarch64.

² Para los tipos de instancias P6-B200 y P6-B300 existen requisitos de instalación adicionales para configurar NVIDIA Fabric Manager.

Opción 2: instalación con el kit de herramientas de CUDA

Las instrucciones de instalación varían ligeramente según el sistema operativo. Para instalar controladores públicos en la instancia con el kit de herramientas de CUDA de NVIDIA, siga las instrucciones del sistema operativo de la instancia. En el caso de los sistemas operativos de instancias que no se muestran aquí, siga las instrucciones correspondientes a su sistema operativo y a la arquitectura del tipo de instancia que aparecen en el sitio web NVIDIA Developer. Para obtener más información, consulte CUDA Toolkit Downloads.

Para ver la arquitectura del tipo de instancia u otras especificaciones, consulte las especificaciones de Accelerated computing en la referencia de Tipos de instancias de Amazon EC2.

En esta sección se describe la instalación del kit de herramientas de CUDA de NVIDIA en una instancia de Amazon Linux 2023. Los ejemplos de comandos de esta sección se basan en una arquitectura x86_64.

Para ver los comandos para arm64-sbsa, consulte CUDA Toolkit Downloads y seleccione las opciones que se apliquen a su distribución. Las instrucciones aparecerán una vez que haya hecho la selección final.

Requisito previo

Antes de instalar el kit de herramientas y los controladores, ejecute el siguiente comando para asegurarse de que disponga de la versión correcta de los encabezados del kernel y de los paquetes de desarrollo.


[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y

Descarga del kit de herramientas y los controladores

Elija el tipo de instalación que quiere usar para la instancia y siga los pasos correspondientes.

Los pasos restantes son los mismos tanto para la instalación local como para la de red.

Finalización de la instalación del kit de herramientas de CUDA


[ec2-user ~]$ sudo dnf clean all
[ec2-user ~]$ sudo dnf install cuda-toolkit -y

Instalación de la variante de módulo del kernel abierto del controlador
```
[ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y
```

Instalación de GPUDirect Storage y Fabric Manager


[ec2-user ~]$ sudo dnf install nvidia-gds -y
[ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y

Habilitación de Fabric Manager y la persistencia de controladores


[ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager
[ec2-user ~]$ sudo systemctl enable nvidia-persistenced

(Solo P6-B200 y P6-B300) Estos tipos de instancias requieren la instalación y configuración de paquetes adicionales que vienen agrupados con el kit de herramientas NVIDIA CUDA.
1. Instale NVIDIA Link Subnet Manager y ibstat.
```
[ec2-user ~]$ sudo dnf install nvlink5
```
2. Active la carga automática del módulo Infiniband al arrancar.
```
[ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
```
Reinicio de la instancia
```
[ec2-user ~]$ sudo reboot
```

En esta sección se describe la instalación del kit de herramientas de CUDA de NVIDIA en una instancia de Ubuntu 24.04. Los ejemplos de comandos de esta sección se basan en una arquitectura x86_64.

Requisito previo


$ apt install linux-headers-$(uname -r)

Descarga del kit de herramientas y los controladores

Elija el tipo de instalación que quiere usar para la instancia y siga los pasos correspondientes.

Los pasos restantes son los mismos tanto para la instalación local como para la de red.

Finalización de la instalación del kit de herramientas de CUDA
```
$ sudo apt update
$ sudo apt install cuda-toolkit -y
```
Instalación de la variante de módulo del kernel abierto del controlador
```
$ sudo apt install nvidia-open -y
```

Instalación de GPUDirect Storage y Fabric Manager


$ sudo apt install nvidia-gds -y
$ sudo apt install nvidia-fabricmanager -y

Habilitación de Fabric Manager y la persistencia de controladores


$ sudo systemctl enable nvidia-fabricmanager
$ sudo systemctl enable nvidia-persistenced

(Solo P6-B200 y P6-B300) Estos tipos de instancias requieren la instalación y configuración de paquetes adicionales que vienen agrupados con el kit de herramientas NVIDIA CUDA.
1. Instale el controlador de dispositivo específico de InfiniBand más reciente y las utilidades de diagnóstico.
```
$ sudo apt install linux-modules-extra-$(uname -r) -y
$ sudo apt install infiniband-diags -y
```
2. Instale NVIDIA Link Subnet Manager.
```
$ sudo apt install nvlsm -y
```
Reinicio de la instancia
```
sudo reboot
```

Actualice la ruta y agregue la variable de entorno siguiente.


$ export PATH=${PATH}:/usr/local/cuda-13.0/bin
$ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64

Para instalar el controlador NVIDIA en Windows, siga estos pasos:

Abra la carpeta donde ha descargado el controlador y lance el archivo de instalación. Siga las instrucciones para instalar el controlador y reiniciar la instancia como sea necesario.
Deshabilite el adaptador de pantalla denominado Adaptador de pantalla básico de Microsoft que está marcado con un icono de advertencia mediante el Administrador de dispositivos. Instale estas características de Windows: Media Foundation y Quality Windows Audio Video Experience.

importante
No deshabilite el adaptador de pantalla denominado Adaptador de pantalla remoto de Microsoft. Si el Adaptador de pantalla remoto de Microsoft está deshabilitado, la conexión podría interrumpirse y los intentos de conectarse a la instancia después de reiniciarla podrían fallar.
Compruebe el Administrador de dispositivos para verificar que la GPU está funcionando correctamente.
Para obtener el mejor rendimiento de su GPU, realice los pasos de optimización que se indican en Optimización de las configuraciones de GPU en instancias de Amazon EC2.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

AMI con controladores NVIDIA

Instalación de controladores GRID

Instalación de controladores públicos NVIDIA

Consideraciones sobre los tipo de instancias P6-B200 y P6-B300

Opción 1: instalación del controlador únicamente

nota

Opción 2: instalación con el kit de herramientas de CUDA

Requisito previo

Descarga del kit de herramientas y los controladores

Requisito previo

Descarga del kit de herramientas y los controladores

importante