Instalación de controladores públicos NVIDIA
Si las AMI AWS Marketplace descritas en Uso de AMI que incluyan controladores NVIDIA no se ajustan a su caso de uso, puede instalar los controladores públicos y traer su propia licencia. Las opciones de instalación son las siguientes:
-
Opción 2: instalación con el kit de herramientas de CUDA (recomendado para distribuciones de Linux)
Consideraciones sobre los tipo de instancias P6-B200
La plataforma P6-B200 es única porque expone las tarjetas de interfaz de red (NIC) Mellanox ConnectX 7 a la instancia como dispositivos PCIe. Estas NIC CX7 no actúan como interfaces de red típicas, sino que funcionan como puentes NVSwitch que proporcionan una ruta de control para inicializar y configurar la NVFabric, que es la topología NVLink de la interconexión de la GPU.
Para inicializar completamente el sistema, NVIDIA Fabric Manager debe configurar NVFabric y establecer la topología del NVSwitch. Esto permite que los módulos del núcleo InfiniBand se comuniquen con los dispositivos CX7.
El kit de herramientas de CUDA incluye NVIDIA Fabric Manager. Recomendamos Opción 2: instalación con el kit de herramientas de CUDA para este tipo de instancia.
Opción 1: instalación del controlador únicamente
Para instalar un controlador específico, inicie sesión en su instancia y descargue el controlador público NVIDIA de 64 bits para el tipo de instancia en http://www.nvidia.com/Download/Find.aspx
A continuación, siga las instrucciones de Local Repository Installation de la Guía de instalación de controladores NVIDIA
nota
Los tipos de instancias P6-B200 requieren la instalación y configuración de paquetes adicionales que vienen agrupados con el kit de herramientas NVIDIA CUDA. Para obtener más información, consulte las instrucciones para su distribución de Linux en Opción 2: instalación con el kit de herramientas de CUDA.
| instancia | Tipo de producto | Serie de producto | Producto | Versión del controlador mínimo |
|---|---|---|---|---|
| G3 | Tesla | Clase M | M60 | -- |
| G4dn | Tesla | Serie T | T4 | -- |
| G5 | Tesla | Serie A | A10 | 470.00 o posterior |
| G5g1 | Tesla | Serie T | NVIDIA T4G | 470.82.01 o posterior |
| G6 | Tesla | Serie L | L4 | 525.0 o posterior |
| G6e | Tesla | Serie L | L40S | 535.0 o posterior |
| Gr6 | Tesla | Serie L | L4 | 525.0 o posterior |
| P2 | Tesla | Serie K | K80 | -- |
| P3 | Tesla | Serie V | V100 | -- |
| P4d | Tesla | Serie A | A100 | -- |
| P4de | Tesla | Serie A | A100 | -- |
| P5 | Tesla | Serie H | H100 | 530 o posterior |
| P5e | Tesla | Serie H | H200 | 550 o posterior |
| P5en | Tesla | Serie H | H200 | 550 o posterior |
| P6-B2002 | Tesla | Serie HGX | B200 | 570 o posterior |
| P6e-GB200 | Tesla | Serie HGX | B200 | 570 o posterior |
1 El sistema operativo de las instancias G5g es Linux aarch64.
2 Para los tipos de instancias P6-B200, existen requisitos de instalación adicionales para configurar NVIDIA Fabric Manager.
Opción 2: instalación con el kit de herramientas de CUDA
Las instrucciones de instalación varían ligeramente según el sistema operativo. Para instalar controladores públicos en la instancia con el kit de herramientas de CUDA de NVIDIA, siga las instrucciones del sistema operativo de la instancia. En el caso de los sistemas operativos de instancias que no se muestran aquí, siga las instrucciones correspondientes a su sistema operativo y a la arquitectura del tipo de instancia que aparecen en el sitio web NVIDIA Developer. Para obtener más información, consulte CUDA Toolkit Downloads
Para ver la arquitectura del tipo de instancia u otras especificaciones, consulte las especificaciones de Accelerated computing en la referencia de Tipos de instancias de Amazon EC2.
En esta sección se describe la instalación del kit de herramientas de CUDA de NVIDIA en una instancia de Amazon Linux 2023. Los ejemplos de comandos de esta sección se basan en una arquitectura x86_64.
Para ver los comandos para arm64-sbsa, consulte CUDA Toolkit Downloads
Requisito previo
Antes de instalar el kit de herramientas y los controladores, ejecute el siguiente comando para asegurarse de que disponga de la versión correcta de los encabezados del kernel y de los paquetes de desarrollo.
[ec2-user ~]$sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
Descarga del kit de herramientas y los controladores
Elija el tipo de instalación que quiere usar para la instancia y siga los pasos correspondientes.
Los pasos restantes son los mismos tanto para la instalación local como para la de red.
-
Finalización de la instalación del kit de herramientas de CUDA
[ec2-user ~]$sudo dnf clean all[ec2-user ~]$sudo dnf install cuda-toolkit -y -
Instalación de la variante de módulo del kernel abierto del controlador
[ec2-user ~]$sudo dnf module install nvidia-driver:open-dkms -y -
Instalación de GPUDirect Storage y Fabric Manager
[ec2-user ~]$sudo dnf install nvidia-gds -y[ec2-user ~]$sudo dnf install nvidia-fabric-manager -y -
Habilitación de Fabric Manager y la persistencia de controladores
[ec2-user ~]$sudo systemctl enable nvidia-fabricmanager[ec2-user ~]$sudo systemctl enable nvidia-persistenced -
Configuración adicional para los tipos de instancias P6-B200:
Los tipos de instancias P6-B200 requieren la instalación y configuración de paquetes adicionales que vienen agrupados con el kit de herramientas NVIDIA CUDA.
-
Instale NVIDIA Link Subnet Manager y
ibstat.[ec2-user ~]$sudo dnf install nvlink5 -
Active la carga automática del módulo Infiniband al arrancar.
[ec2-user ~]$echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
-
-
Reinicio de la instancia
[ec2-user ~]$sudo reboot
En esta sección se describe la instalación del kit de herramientas de CUDA de NVIDIA en una instancia de Ubuntu 24.04. Los ejemplos de comandos de esta sección se basan en una arquitectura x86_64.
Para ver los comandos para arm64-sbsa, consulte CUDA Toolkit Downloads
Requisito previo
Antes de instalar el kit de herramientas y los controladores, ejecute el siguiente comando para asegurarse de que disponga de la versión correcta de los encabezados del kernel y de los paquetes de desarrollo.
$apt install linux-headers-$(uname -r)
Descarga del kit de herramientas y los controladores
Elija el tipo de instalación que quiere usar para la instancia y siga los pasos correspondientes.
Los pasos restantes son los mismos tanto para la instalación local como para la de red.
-
Finalización de la instalación del kit de herramientas de CUDA
$sudo apt update$sudo apt install cuda-toolkit -y -
Instalación de la variante de módulo del kernel abierto del controlador
$sudo apt install nvidia-open -y -
Instalación de GPUDirect Storage y Fabric Manager
$sudo apt install nvidia-gds -y$sudo apt install nvidia-fabricmanager -y -
Habilitación de Fabric Manager y la persistencia de controladores
$sudo systemctl enable nvidia-fabricmanager$sudo systemctl enable nvidia-persistenced -
Configuración adicional para los tipos de instancias P6-B200:
Los tipos de instancias P6-B200 requieren la instalación y configuración de paquetes adicionales que vienen agrupados con el kit de herramientas NVIDIA CUDA.
-
Instale el controlador de dispositivo específico de InfiniBand (
mlx5_ib) más reciente y las utilidades de diagnóstico.$sudo apt install linux-modules-extra-$(uname -r) -y$sudo apt install infiniband-diags -y -
Instale NVIDIA Link Subnet Manager.
$sudo apt install nvlsm -y
-
-
Reinicio de la instancia
sudo reboot -
Actualice la ruta y agregue la variable de entorno siguiente.
$export PATH=${PATH}:/usr/local/cuda-13.0/bin$export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64
Para instalar el controlador NVIDIA en Windows, siga estos pasos:
-
Abra la carpeta donde ha descargado el controlador y lance el archivo de instalación. Siga las instrucciones para instalar el controlador y reiniciar la instancia como sea necesario.
-
Deshabilite el adaptador de pantalla denominado Adaptador de pantalla básico de Microsoft que está marcado con un icono de advertencia mediante el Administrador de dispositivos. Instale estas características de Windows: Media Foundation y Quality Windows Audio Video Experience.
importante
No deshabilite el adaptador de pantalla denominado Adaptador de pantalla remoto de Microsoft. Si el Adaptador de pantalla remoto de Microsoft está deshabilitado, la conexión podría interrumpirse y los intentos de conectarse a la instancia después de reiniciarla podrían fallar.
-
Compruebe el Administrador de dispositivos para verificar que la GPU está funcionando correctamente.
-
Para obtener el mejor rendimiento de su GPU, realice los pasos de optimización que se indican en Optimización de las configuraciones de GPU en instancias de Amazon EC2.