Softwareanforderungen für P6-Instances - AWS Deep Learning AMIs

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Softwareanforderungen für P6-Instances

Im Folgenden finden Sie die detaillierten Anforderungen für die Ausführung von DLAMI auf P6-Instances.

P6-B200-Anforderungen

Die folgende Software ist für den Betrieb von P6-B200-Instances erforderlich:

Software

Mindestanforderung an die Version

Nvidia CUDA-Toolkit

12.8

Nvidia-Treiber

R570

NVLINK 5

R570

Linux-Kernel

6.1

Elastic Fabric Adapter (EFA)

1,41,0

AWS OFI NCCL-Plugin

1.15.0

P6e-00-Anforderungen GB2

Die folgende Software ist für den Betrieb von P6e-00-Instances erforderlich: GB2

Software

Mindestanforderung an die Version

Nvidia CUDA-Toolkit

12.8

Nvidia-Treiber

R570

Linux-Kernel

6.12

Elastic Fabric Adapter (EFA)

1.42.0

AWS OFI NCCL-Plugin

1.15.0

P6-B300-Anforderungen

Die folgende Software ist für den Betrieb von P6-B300-Instances erforderlich:

Software

Mindestanforderung an die Version

Nvidia CUDA-Toolkit

13,0

Nvidia-Treiber

R580

NVLINK 5

R580

Linux-Kernel

6.1

Elastic Fabric Adapter (EFA)

1,44,0

AWS OFI NCCL-Plugin

1.17.1

Bestätigen Sie die GPU-Funktionalität

Um die Funktionsfähigkeit zu bestätigen GPUs:

  1. Führen Sie den folgenden Nvidia-GPU-Geräteabfragetest aus.

    $ /usr/local/cuda/extras/demo_suite/deviceQuery
  2. Bestätigen Sie die Ausgabe des Geräteabfragetests. Im Folgenden finden Sie eine Beispielausgabe für P6-b200.

    /usr/local/cuda/extras/demo_suite/deviceQuery Starting... CUDA Device Query (Runtime API) Detected 8 CUDA Capable device(s) ... deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 12.8, CUDA Runtime Version = 12.8, NumDevs = 8, Device0 = NVIDIA B200, Device1 = NVIDIA B200, Device2 = NVIDIA B200, Device3 = NVIDIA B200, Device4 = NVIDIA B200, Device5 = NVIDIA B200, Device6 = NVIDIA B200, Device7 = NVIDIA B200 Result = PASS

Um zu überprüfen, ob der NVIDIA-Treiber funktionsfähig ist:

  1. Führen Sie die Nvidia-Systemverwaltungsschnittstelle aus.

    $ nvidia-smi
  2. Bestätigen Sie die Ausgabe von der Systemverwaltungsschnittstelle. Im Folgenden finden Sie eine Beispielausgabe für P6-b200.

    +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 570.133.20 Driver Version: 570.133.20 CUDA Version: 12.8 | |-----------------------------------------+------------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 NVIDIA B200 Off | 00000000:51:00.0 Off | 0 | | N/A 32C P0 145W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 1 NVIDIA B200 Off | 00000000:52:00.0 Off | 0 | | N/A 30C P0 140W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 2 NVIDIA B200 Off | 00000000:62:00.0 Off | 0 | | N/A 31C P0 139W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 3 NVIDIA B200 Off | 00000000:63:00.0 Off | 0 | | N/A 29C P0 139W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 4 NVIDIA B200 Off | 00000000:75:00.0 Off | 0 | | N/A 31C P0 141W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 5 NVIDIA B200 Off | 00000000:76:00.0 Off | 0 | | N/A 31C P0 141W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 6 NVIDIA B200 Off | 00000000:86:00.0 Off | 0 | | N/A 32C P0 141W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 7 NVIDIA B200 Off | 00000000:87:00.0 Off | 0 | | N/A 30C P0 138W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ +-----------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=========================================================================================| | No running processes found | +-----------------------------------------------------------------------------------------+
Anmerkung

Wenn Sie Probleme haben, wenden Sie sich an den AWS Support.