NVIDIA 퍼블릭 드라이버 설치 - Amazon Elastic Compute Cloud

NVIDIA 퍼블릭 드라이버 설치

NVIDIA 드라이버가 포함된 AMI 사용에 설명된 AWS Marketplace AMI가 사용 사례에 적합하지 않은 경우 퍼블릭 드라이버를 설치하고 자체 라이선스를 사용할 수 있습니다. 설치 옵션은 다음과 같습니다.

 

P6-B200 인스턴스 유형 고려 사항

P6-B200 플랫폼은 Mellanox ConnectX 7 네트워크 인터페이스 카드(NIC)를 PCIe 디바이스로 인스턴스에 노출한다는 점에서 고유합니다. 이러한 CX7 NIC는 일반적인 네트워크 인터페이스로 작동하지 않고 대신 NVSwitch 브리지로 작동하여 GPU interconnect의 NVLink 토폴로지인 NVFabric을 초기화하고 구성하기 위한 제어 경로를 제공합니다.

시스템을 완전히 초기화하려면 NVIDIA Fabric Manager가 NVFabric을 구성하고 NVSwitch 토폴로지를 설정해야 합니다. 이렇게 하면 InfiniBand 커널 모듈이 CX7 디바이스와 통신할 수 있습니다.

NVIDIA Fabric Manager는 CUDA 툴킷에 포함되어 있습니다. 이 인스턴스 유형에는 옵션 2: CUDA 툴킷을 사용하여 설치를 사용하는 것이 좋습니다.

옵션 1: 드라이버 전용 설치

특정 드라이버를 설치하는 경우, 인스턴스에 로그인하고 http://www.nvidia.com/Download/Find.aspx에서 인스턴스 유형에 적합한 64비트 NVIDIA 퍼블릭 드라이버를 다운로드합니다. 제품 유형, 제품 시리즈, 제품에 다음 표에 표시된 옵션을 사용합니다.

그런 다음 NVIDIA Driver Installation Guide로컬 리포지토리 설치 지침을 따릅니다.

참고

P6-B200 인스턴스 유형을 사용하려면 NVIDIA CUDA 도구 키트와 함께 제공되는 추가 패키지를 설치 및 구성해야 합니다. 자세한 내용은 옵션 2: CUDA 툴킷을 사용하여 설치의 Linux 배포 지침을 참조하세요.

Instance 제품 유형 제품 시리즈 제품 최소 드라이버 버전
G3 Tesla M-Class M60 --
G4dn Tesla T 시리즈 T4 --
G5 Tesla A 시리즈 A10 470.00 이상
G5g1 Tesla T 시리즈 NVIDIA T4G 470.82.01 이상
G6 Tesla L 시리즈 L4 525.0 이상
G6e Tesla L 시리즈 L40S 535.0 이상
Gr6 Tesla L 시리즈 L4 525.0 이상
P2 Tesla K 시리즈 K80 --
P3 Tesla V 시리즈 V100 --
P4d Tesla A 시리즈 A100 --
P4de Tesla A 시리즈 A100 --
P5 Tesla H-시리즈 H100 530 이상
P5e Tesla H-시리즈 H200 550 이상
P5en Tesla H-시리즈 H200 550 이상
P6-B2002 Tesla HGX 시리즈 B200 570 이상
P6e-GB200 Tesla HGX 시리즈 B200 570 이상

1 G5g 인스턴스의 운영 체제는 Linux aarch64입니다.

2 P6-B200 인스턴스 유형의 경우 NVIDIA Fabric Manager를 구성하기 위한 추가 설치 요구 사항이 있습니다.

옵션 2: CUDA 툴킷을 사용하여 설치

설치 지침은 운영 체제에 따라 약간 차이가 있습니다. NVIDIA CUDA 툴킷을 사용하여 인스턴스에 퍼블릭 드라이버를 설치하려면 인스턴스 운영 체제의 지침을 따르세요. 여기에 표시되지 않은 인스턴스 운영 체제의 경우 NVIDIA 개발자 웹사이트의 운영 체제 및 인스턴스 유형 아키텍처에 대한 지침을 따르세요. 자세한 내용은 CUDA Toolkit Downloads를 참조하세요.

인스턴스 유형 아키텍처 또는 기타 사양은 Amazon EC2 인스턴스 유형 참조의 Accelerated computing 사양을 참조하세요.

이 섹션에서는 Amazon Linux 2023 인스턴스에 NVIDIA CUDA 툴킷을 설치하는 방법을 다룹니다. 이 섹션의 명령 예제는 x86_64 아키텍처를 기반으로 합니다.

arm64-sbsa 명령은 CUDA Toolkit Downloads를 참조하고 배포에 적용되는 옵션을 선택합니다. 최종 선택 후 지침이 표시됩니다.

전제 조건

툴킷과 드라이버를 설치하기 전에 다음 명령을 실행하여 커널 헤더 및 개발 패키지의 올바른 버전이 있는지 확인합니다.

[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
툴킷 및 드라이버 다운로드

인스턴스에 사용할 설치 유형을 선택하고 관련 단계를 따릅니다.

RPM local installation

다음 지침에 따라 CUDA 툴킷 설치 프로그램 리포지토리 번들을 인스턴스에 다운로드한 다음 지정된 번들을 추출하고 등록할 수 있습니다.

NVIDIA 개발자 웹사이트에서 지침을 보려면 CUDA Toolkit Downloads를 참조하세요.

[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm [ec2-user ~]$ sudo rpm -i cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm
RPM network installation

다음 지침에 따라 인스턴스의 패키지 관리자를 통해 CUDA 리포지토리를 등록할 수 있습니다. 설치 단계를 실행하면 패키지 관리자가 필요한 패키지만 다운로드합니다.

NVIDIA 개발자 웹사이트에서 지침을 보려면 CUDA Toolkit Downloads를 참조하세요.

[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb [ec2-user ~]$ sudo dpkg -i cuda-keyring_1.1-1_all.deb

나머지 단계는 로컬 설치와 네트워크 설치 모두에서 동일합니다.

  1. CUDA 툴킷 설치 완료

    [ec2-user ~]$ sudo dnf clean all [ec2-user ~]$ sudo dnf install cuda-toolkit -y
  2. 드라이버의 오픈 커널 모듈 변형 설치

    [ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y
  3. GPUDirect Storage 및 Fabric Manager 설치

    [ec2-user ~]$ sudo dnf install nvidia-gds -y [ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y
  4. Fabric Manager 및 드라이버 지속성 활성화

    [ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager [ec2-user ~]$ sudo systemctl enable nvidia-persistenced
  5. P6-B200 인스턴스 유형에 대한 추가 구성:

    P6-B200 인스턴스 유형을 사용하려면 NVIDIA CUDA 도구 키트와 함께 제공되는 추가 패키지를 설치 및 구성해야 합니다.

    1. NVIDIA Link Subnet Manager 및 ibstat을 설치합니다.

      [ec2-user ~]$ sudo dnf install nvlink5
    2. 시작 시 Infiniband 모듈의 자동 로드를 활성화합니다.

      [ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
  6. 인스턴스 재부팅

    [ec2-user ~]$ sudo reboot

이 섹션에서는 Ubuntu 24.04 인스턴스에 NVIDIA CUDA 툴킷을 설치하는 방법을 다룹니다. 이 섹션의 명령 예제는 x86_64 아키텍처를 기반으로 합니다.

arm64-sbsa 명령은 CUDA Toolkit Downloads를 참조하고 배포에 적용되는 옵션을 선택합니다. 최종 선택 후 지침이 표시됩니다.

전제 조건

툴킷과 드라이버를 설치하기 전에 다음 명령을 실행하여 커널 헤더 및 개발 패키지의 올바른 버전이 있는지 확인합니다.

$ apt install linux-headers-$(uname -r)
툴킷 및 드라이버 다운로드

인스턴스에 사용할 설치 유형을 선택하고 관련 단계를 따릅니다.

RPM local installation

다음 지침에 따라 CUDA 툴킷 설치 프로그램 리포지토리 번들을 인스턴스에 다운로드한 다음 지정된 번들을 추출하고 등록할 수 있습니다.

NVIDIA 개발자 웹사이트에서 지침을 보려면 CUDA Toolkit Downloads를 참조하세요.

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-ubuntu2404.pin $ sudo mv cuda-ubuntu2404.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb $ sudo dpkg -i cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb $ sudo cp /var/cuda-repo-ubuntu2404-13-0-local/cuda-*-keyring.gpg /usr/share/keyrings/
RPM network installation

다음 지침에 따라 인스턴스의 패키지 관리자를 통해 CUDA 리포지토리를 등록할 수 있습니다. 설치 단계를 실행하면 패키지 관리자가 필요한 패키지만 다운로드합니다.

NVIDIA 개발자 웹사이트에서 지침을 보려면 CUDA Toolkit Downloads를 참조하세요.

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb $ sudo dpkg -i cuda-keyring_1.1-1_all.deb

나머지 단계는 로컬 설치와 네트워크 설치 모두에서 동일합니다.

  1. CUDA 툴킷 설치 완료

    $ sudo apt update $ sudo apt install cuda-toolkit -y
  2. 드라이버의 오픈 커널 모듈 변형 설치

    $ sudo apt install nvidia-open -y
  3. GPUDirect Storage 및 Fabric Manager 설치

    $ sudo apt install nvidia-gds -y $ sudo apt install nvidia-fabricmanager -y
  4. Fabric Manager 및 드라이버 지속성 활성화

    $ sudo systemctl enable nvidia-fabricmanager $ sudo systemctl enable nvidia-persistenced
  5. P6-B200 인스턴스 유형에 대한 추가 구성:

    P6-B200 인스턴스 유형을 사용하려면 NVIDIA CUDA 도구 키트와 함께 제공되는 추가 패키지를 설치 및 구성해야 합니다.

    1. 최신 InfiniBand 전용 디바이스 드라이버(mlx5_ib) 및 진단 유틸리티를 설치합니다.

      $ sudo apt install linux-modules-extra-$(uname -r) -y $ sudo apt install infiniband-diags -y
    2. NVIDIA Link Subnet Manager를 설치합니다.

      $ sudo apt install nvlsm -y
  6. 인스턴스 재부팅

    sudo reboot
  7. 경로를 업데이트하고 다음 환경 변수를 추가합니다.

    $ export PATH=${PATH}:/usr/local/cuda-13.0/bin $ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64

Windows에 NVIDIA 드라이버를 설치하려면 다음 단계를 수행합니다.

  1. 드라이버를 다운로드한 폴더를 열고 설치 파일을 실행합니다. 안내에 따라 드라이버를 설치하고 필요에 따라 인스턴스를 재부팅합니다.

  2. 디바이스 관리자를 사용하여 경고 아이콘이 표시된 Microsoft Basic Display Adapter라는 디스플레이 어댑터를 비활성화합니다. Windows 기능인 미디어 파운데이션qWave(Quality Windows Audio Video Experience)를 설치합니다.

    중요

    Microsoft Remote Display Adapter라는 디스플레이 어댑터를 비활성화하지 마세요. Microsoft Remote Display Adapter가 비활성화된 경우 연결이 중단되고 재부팅된 후 인스턴스에 연결하려는 시도가 실패할 수 있습니다.

  3. GPU가 올바르게 작동하는지 확인하려면 장치 관리자를 확인합니다.

  4. GPU에서 최상의 성능을 얻으려면 Amazon EC2 인스턴스의 GPU 설정 최적화의 최적화 단계를 완료합니다.