Configuration logicielle requise pour les instances P6 - AWS Apprentissage profond (deep learning) AMIs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration logicielle requise pour les instances P6

Vous trouverez ci-dessous les exigences détaillées pour exécuter le DLAMI sur des instances P6.

Exigences relatives à la norme P6-B200

Les logiciels suivants sont nécessaires pour faire fonctionner les instances P6-B200 :

Logiciels

Version minimale requise

Boîte à outils Nvidia CUDA

12,8

Pilote Nvidia

R570

NV LINK 5

R570

Noyau Linux

6.1

Elastic Fabric Adapter (EFA)

1,41,0

AWS Plug-in OFI NCCL

1.15.0

Exigences relatives à la norme P6e- GB2 00

Les logiciels suivants sont nécessaires pour faire fonctionner les instances GB2 P6e-00 :

Logiciels

Version minimale requise

Boîte à outils Nvidia CUDA

12,8

Pilote Nvidia

R570

Noyau Linux

6,12

Elastic Fabric Adapter (EFA)

1.42.0

AWS Plug-in OFI NCCL

1.15.0

Exigences relatives à la norme P6-B300

Les logiciels suivants sont nécessaires pour faire fonctionner les instances P6-B300 :

Logiciels

Version minimale requise

Boîte à outils Nvidia CUDA

13,0

Pilote Nvidia

R580

NV LINK 5

R580

Noyau Linux

6.1

Elastic Fabric Adapter (EFA)

1,44,0

AWS Plug-in OFI NCCL

1.17.1

Confirmer le fonctionnement du GPU

Pour confirmer le bon fonctionnement GPUs :

  1. Exécutez le test de requête sur le périphérique GPU Nvidia suivant.

    $ /usr/local/cuda/extras/demo_suite/deviceQuery
  2. Confirmez le résultat du Device Query Test. Voici un exemple de sortie pour p6-B200.

    /usr/local/cuda/extras/demo_suite/deviceQuery Starting... CUDA Device Query (Runtime API) Detected 8 CUDA Capable device(s) ... deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 12.8, CUDA Runtime Version = 12.8, NumDevs = 8, Device0 = NVIDIA B200, Device1 = NVIDIA B200, Device2 = NVIDIA B200, Device3 = NVIDIA B200, Device4 = NVIDIA B200, Device5 = NVIDIA B200, Device6 = NVIDIA B200, Device7 = NVIDIA B200 Result = PASS

Pour vérifier le bon fonctionnement du pilote NVIDIA :

  1. Exécutez l'interface de gestion du système Nvidia.

    $ nvidia-smi
  2. Confirmez le résultat de l'interface de gestion du système. Voici un exemple de sortie pour p6-B200.

    +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 570.133.20 Driver Version: 570.133.20 CUDA Version: 12.8 | |-----------------------------------------+------------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 NVIDIA B200 Off | 00000000:51:00.0 Off | 0 | | N/A 32C P0 145W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 1 NVIDIA B200 Off | 00000000:52:00.0 Off | 0 | | N/A 30C P0 140W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 2 NVIDIA B200 Off | 00000000:62:00.0 Off | 0 | | N/A 31C P0 139W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 3 NVIDIA B200 Off | 00000000:63:00.0 Off | 0 | | N/A 29C P0 139W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 4 NVIDIA B200 Off | 00000000:75:00.0 Off | 0 | | N/A 31C P0 141W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 5 NVIDIA B200 Off | 00000000:76:00.0 Off | 0 | | N/A 31C P0 141W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 6 NVIDIA B200 Off | 00000000:86:00.0 Off | 0 | | N/A 32C P0 141W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 7 NVIDIA B200 Off | 00000000:87:00.0 Off | 0 | | N/A 30C P0 138W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ +-----------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=========================================================================================| | No running processes found | +-----------------------------------------------------------------------------------------+
Note

Si vous rencontrez des problèmes, contactez le AWS Support.