P6 인스턴스의 소프트웨어 요구 사항 - AWS Deep Learning AMIs

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

P6 인스턴스의 소프트웨어 요구 사항

다음은 P6 인스턴스에서 DLAMI를 실행하기 위한 세부 요구 사항입니다.

P6-B200 요구 사항

P6-B200 인스턴스를 운영하려면 다음 소프트웨어가 필요합니다.

소프트웨어

최소 버전 요구 사항

Nvidia CUDA Toolkit

12.8

Nvidia 드라이버

R570

NVLINK 5

R570

Linux 커널

6.1

Elastic Fabric Adapter(EFA)

1.41.0

AWS OFI NCCL 플러그인

1.15.0

P6e-GB200 요구 사항

P6e-GB200 인스턴스를 운영하려면 다음 소프트웨어가 필요합니다.

소프트웨어

최소 버전 요구 사항

Nvidia CUDA Toolkit

12.8

Nvidia 드라이버

R570

Linux 커널

6.12

Elastic Fabric Adapter(EFA)

1.42.0

AWS OFI NCCL 플러그인

1.15.0

P6-B300 요구 사항

P6-B300 인스턴스를 운영하려면 다음 소프트웨어가 필요합니다.

소프트웨어

최소 버전 요구 사항

Nvidia CUDA Toolkit

13.0

Nvidia 드라이버

R580

NVLINK 5

R580

Linux 커널

6.1

Elastic Fabric Adapter(EFA)

1.44.0

AWS OFI NCCL 플러그인

1.17.1

GPU 기능 확인

기능적 GPU를 확인하는 방법:

  1. 다음 Nvidia GPU 디바이스 쿼리 테스트를 실행합니다.

    $ /usr/local/cuda/extras/demo_suite/deviceQuery
  2. 디바이스 쿼리 테스트의 출력을 확인합니다. 다음은 p6-B200의 출력 예제입니다.

    /usr/local/cuda/extras/demo_suite/deviceQuery Starting... CUDA Device Query (Runtime API) Detected 8 CUDA Capable device(s) ... deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 12.8, CUDA Runtime Version = 12.8, NumDevs = 8, Device0 = NVIDIA B200, Device1 = NVIDIA B200, Device2 = NVIDIA B200, Device3 = NVIDIA B200, Device4 = NVIDIA B200, Device5 = NVIDIA B200, Device6 = NVIDIA B200, Device7 = NVIDIA B200 Result = PASS

기능적 NVIDIA 드라이버를 확인하는 방법:

  1. Nvidia 시스템 관리 인터페이스를 실행합니다.

    $ nvidia-smi
  2. 시스템 관리 인터페이스의 출력을 확인합니다. 다음은 p6-B200의 출력 예제입니다.

    +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 570.133.20 Driver Version: 570.133.20 CUDA Version: 12.8 | |-----------------------------------------+------------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 NVIDIA B200 Off | 00000000:51:00.0 Off | 0 | | N/A 32C P0 145W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 1 NVIDIA B200 Off | 00000000:52:00.0 Off | 0 | | N/A 30C P0 140W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 2 NVIDIA B200 Off | 00000000:62:00.0 Off | 0 | | N/A 31C P0 139W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 3 NVIDIA B200 Off | 00000000:63:00.0 Off | 0 | | N/A 29C P0 139W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 4 NVIDIA B200 Off | 00000000:75:00.0 Off | 0 | | N/A 31C P0 141W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 5 NVIDIA B200 Off | 00000000:76:00.0 Off | 0 | | N/A 31C P0 141W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 6 NVIDIA B200 Off | 00000000:86:00.0 Off | 0 | | N/A 32C P0 141W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 7 NVIDIA B200 Off | 00000000:87:00.0 Off | 0 | | N/A 30C P0 138W / 1000W | 0MiB / 183359MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ +-----------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=========================================================================================| | No running processes found | +-----------------------------------------------------------------------------------------+
참고

문제가 발생하면AWS Support에 문의하십시오.