Requisitos de software para instâncias P6 - AMIs de deep learning da AWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Requisitos de software para instâncias P6

Abaixo estão os requisitos detalhados para executar o DLAMI em instâncias P6.

Requisitos do P6-B200

O software a seguir é necessário para operar instâncias P6-B200:

Software

Requisito de versão mínima

Nvidia CUDA Toolkit

12,8

Driver Nvidia

R570

NVLINK 5

R570

Linux Kernel

6.1

Elastic Fabric Adapter (EFA)

1.41.0

AWS Plug-in OFI NCCL

1.15.0

Requisitos do P6-00 GB2

O software a seguir é necessário para operar as instâncias P6e- GB2 00:

Software

Requisito de versão mínima

Nvidia CUDA Toolkit

12,8

Driver Nvidia

R570

Linux Kernel

6.12

Elastic Fabric Adapter (EFA)

1.42.0

AWS Plug-in OFI NCCL

1.15.0

Requisitos do P6-B300

O software a seguir é necessário para operar instâncias P6-B300:

Software

Requisito de versão mínima

Nvidia CUDA Toolkit

13.0

Driver Nvidia

R580

NVLINK 5

R580

Linux Kernel

6.1

Elastic Fabric Adapter (EFA)

1.44.0

AWS Plug-in OFI NCCL

1.17.1

Confirmar a funcionalidade de GPU

Para confirmar o funcionamento GPUs:

  1. Execute o seguinte teste de consulta de dispositivo de GPU Nvidia.

    $ /usr/local/cuda/extras/demo_suite/deviceQuery
  2. Confirme a saída do Device Query Test. Veja a seguir um exemplo de saída para p6-B200.

    /usr/local/cuda/extras/demo_suite/deviceQuery Starting... CUDA Device Query (Runtime API) Detected 8 CUDA Capable device(s) ... deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 12.8, CUDA Runtime Version = 12.8, NumDevs = 8, Device0 = NVIDIA B200, Device1 = NVIDIA B200, Device2 = NVIDIA B200, Device3 = NVIDIA B200, Device4 = NVIDIA B200, Device5 = NVIDIA B200, Device6 = NVIDIA B200, Device7 = NVIDIA B200 Result = PASS

Para confirmar que o driver NVIDIA está funcionando:

  1. Execute a interface de gerenciamento do sistema Nvidia.

    $ nvidia-smi
  2. Confirme a saída da interface de gerenciamento do sistema. Veja a seguir um exemplo de saída para p6-B200.

    +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 570.133.20 Driver Version: 570.133.20 CUDA Version: 12.8 | |-----------------------------------------+------------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 NVIDIA B200 Off | 00000000:51:00.0 Off | 0 | | N/A 32C P0 145W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 1 NVIDIA B200 Off | 00000000:52:00.0 Off | 0 | | N/A 30C P0 140W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 2 NVIDIA B200 Off | 00000000:62:00.0 Off | 0 | | N/A 31C P0 139W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 3 NVIDIA B200 Off | 00000000:63:00.0 Off | 0 | | N/A 29C P0 139W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 4 NVIDIA B200 Off | 00000000:75:00.0 Off | 0 | | N/A 31C P0 141W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 5 NVIDIA B200 Off | 00000000:76:00.0 Off | 0 | | N/A 31C P0 141W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 6 NVIDIA B200 Off | 00000000:86:00.0 Off | 0 | | N/A 32C P0 141W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 7 NVIDIA B200 Off | 00000000:87:00.0 Off | 0 | | N/A 30C P0 138W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ +-----------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=========================================================================================| | No running processes found | +-----------------------------------------------------------------------------------------+
nota

Se você tiver algum problema, entre em contato com o AWS Support.