NVIDIA 퍼블릭 드라이버 설치

NVIDIA 드라이버가 포함된 AMI 사용에 설명된 AWS Marketplace AMI가 사용 사례에 적합하지 않은 경우 퍼블릭 드라이버를 설치하고 자체 라이선스를 사용할 수 있습니다. 설치 옵션은 다음과 같습니다.

옵션 1: 드라이버 전용 설치
옵션 2: CUDA 툴킷을 사용하여 설치(Linux 배포판에 권장)

P6-B200 및 P6-B300 인스턴스 유형 고려 사항

P6-B200 및 P6-B300 플랫폼은 Mellanox ConnectX 네트워크 인터페이스 카드(NIC)를 PCIe 디바이스로 인스턴스에 노출한다는 점에서 독특합니다. 이러한 NIC는 일반적인 네트워크 인터페이스로 작동하지 않고 대신 NVSwitch 브리지로 작동하여 GPU interconnect의 NVLink 토폴로지인 NVFabric을 초기화하고 구성하기 위한 제어 경로를 제공합니다.

시스템을 완전히 초기화하려면 NVIDIA Fabric Manager가 NVFabric을 구성하고 NVSwitch 토폴로지를 설정해야 합니다. 이렇게 하면 InfiniBand 커널 모듈이 Mellanox ConnectX NIC와 통신할 수 있습니다.

NVIDIA Fabric Manager는 CUDA 툴킷에 포함되어 있습니다. 이 인스턴스 유형에는 옵션 2: CUDA 툴킷을 사용하여 설치를 사용하는 것이 좋습니다.

옵션 1: 드라이버 전용 설치

특정 드라이버를 설치하는 경우, 인스턴스에 로그인하고 http://www.nvidia.com/Download/Find.aspx에서 인스턴스 유형에 적합한 64비트 NVIDIA 퍼블릭 드라이버를 다운로드합니다. 제품 유형, 제품 시리즈, 제품에 다음 표에 표시된 옵션을 사용합니다.

그런 다음 NVIDIA 드라이버 설치 가이드의 로컬 리포지토리 설치 지침을 따릅니다.

참고

P6-B200 및 P6-B300 인스턴스 유형을 사용하려면 NVIDIA CUDA 도구 키트와 함께 제공되는 추가 패키지를 설치 및 구성해야 합니다. 자세한 내용은 옵션 2: CUDA 툴킷을 사용하여 설치의 Linux 배포 지침을 참조하세요.

Instance	제품 유형	제품 시리즈	제품	최소 드라이버 버전
G3	Tesla	M-Class	M60	--
G4dn	Tesla	T 시리즈	T4	--
G5	Tesla	A 시리즈	A10	470.00 이상
G5g¹	Tesla	T 시리즈	T4G	470.82.01 이상
G6	Tesla	L 시리즈	L4	525.0 이상
G6e	Tesla	L 시리즈	L40S	535.0 이상
Gr6	Tesla	L 시리즈	L4	525.0 이상
G7e	Tesla	RTX 시리즈	RTX PRO 6000 Blackwell	575.0 이상
P3	Tesla	V 시리즈	V100	--
P4d	Tesla	A 시리즈	A100	--
P4de	Tesla	A 시리즈	A100	--
P5	Tesla	H-시리즈	H100	530 이상
P5e	Tesla	H-시리즈	H200	550 이상
P5en	Tesla	H-시리즈	H200	550 이상
P6-B200²	Tesla	HGX 시리즈	B200	570 이상
P6e-GB200	Tesla	HGX 시리즈	B200	570 이상
P6-B300²	Tesla	HGX 시리즈	B300	580 이상

¹ G5g 인스턴스의 운영 체제는 Linux aarch64입니다.

² P6-B200 및 P6-B300 인스턴스 유형의 경우 NVIDIA Fabric Manager를 구성하기 위한 추가 설치 요구 사항이 있습니다.

옵션 2: CUDA 툴킷을 사용하여 설치

설치 지침은 운영 체제에 따라 약간 차이가 있습니다. NVIDIA CUDA 툴킷을 사용하여 인스턴스에 퍼블릭 드라이버를 설치하려면 인스턴스 운영 체제의 지침을 따르세요. 여기에 표시되지 않은 인스턴스 운영 체제의 경우 NVIDIA 개발자 웹사이트의 운영 체제 및 인스턴스 유형 아키텍처에 대한 지침을 따르세요. 자세한 내용은 CUDA Toolkit Downloads를 참조하세요.

인스턴스 유형 아키텍처 또는 기타 사양은 Amazon EC2 인스턴스 유형 참조의 Accelerated computing 사양을 참조하세요.

이 섹션에서는 Amazon Linux 2023 인스턴스에 NVIDIA CUDA 툴킷을 설치하는 방법을 다룹니다. 이 섹션의 명령 예제는 x86_64 아키텍처를 기반으로 합니다.

arm64-sbsa 명령은 CUDA Toolkit Downloads를 참조하고 배포에 적용되는 옵션을 선택합니다. 최종 선택 후 지침이 표시됩니다.

사전 조건

툴킷과 드라이버를 설치하기 전에 다음 명령을 실행하여 커널 헤더 및 개발 패키지의 올바른 버전이 있는지 확인합니다.


[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y

툴킷 및 드라이버 다운로드

인스턴스에 사용할 설치 유형을 선택하고 관련 단계를 따릅니다.

나머지 단계는 RPM 로컬 설치와 RPM 네트워크 설치 모두에서 동일합니다.

CUDA 툴킷 설치 완료


[ec2-user ~]$ sudo dnf clean all
[ec2-user ~]$ sudo dnf install cuda-toolkit -y

드라이버의 오픈 커널 모듈 변형 설치


[ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y

GPUDirect Storage 및 Fabric Manager 설치


[ec2-user ~]$ sudo dnf install nvidia-gds -y
[ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y

Fabric Manager 및 드라이버 지속성 활성화


[ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager
[ec2-user ~]$ sudo systemctl enable nvidia-persistenced

(P6-B200 및 P6-B300만 해당) 이 인스턴스 유형을 사용하려면 NVIDIA CUDA 도구 키트와 함께 제공되는 추가 패키지를 설치 및 구성해야 합니다.
1. NVIDIA Link Subnet Manager 및 ibstat을 설치합니다.
```
[ec2-user ~]$ sudo dnf install nvlink5
```
2. 시작 시 Infiniband 모듈의 자동 로드를 활성화합니다.
```
[ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
```
인스턴스 재부팅
```
[ec2-user ~]$ sudo reboot
```

이 섹션에서는 Ubuntu 24.04 인스턴스에 NVIDIA CUDA 툴킷을 설치하는 방법을 다룹니다. 이 섹션의 명령 예제는 x86_64 아키텍처를 기반으로 합니다.

arm64-sbsa 명령은 CUDA Toolkit Downloads를 참조하고 배포에 적용되는 옵션을 선택합니다. 최종 선택 후 지침이 표시됩니다.

사전 조건

툴킷과 드라이버를 설치하기 전에 다음 명령을 실행하여 커널 헤더 및 개발 패키지의 올바른 버전이 있는지 확인합니다.


$ apt install linux-headers-$(uname -r)

툴킷 및 드라이버 다운로드

인스턴스에 사용할 설치 유형을 선택하고 관련 단계를 따릅니다.

나머지 단계는 로컬 설치와 네트워크 설치 모두에서 동일합니다.

CUDA 툴킷 설치 완료


$ sudo apt update
$ sudo apt install cuda-toolkit -y

드라이버의 오픈 커널 모듈 변형 설치
```
$ sudo apt install nvidia-open -y
```

GPUDirect Storage 및 Fabric Manager 설치


$ sudo apt install nvidia-gds -y
$ sudo apt install nvidia-fabricmanager -y

Fabric Manager 및 드라이버 지속성 활성화


$ sudo systemctl enable nvidia-fabricmanager
$ sudo systemctl enable nvidia-persistenced

(P6-B200 및 P6-B300만 해당) 이 인스턴스 유형을 사용하려면 NVIDIA CUDA 도구 키트와 함께 제공되는 추가 패키지를 설치 및 구성해야 합니다.
1. 최신 InfiniBand 전용 디바이스 드라이버 및 진단 유틸리티를 설치합니다.
```
$ sudo apt install linux-modules-extra-$(uname -r) -y
$ sudo apt install infiniband-diags -y
```
2. NVIDIA Link Subnet Manager를 설치합니다.
```
$ sudo apt install nvlsm -y
```
인스턴스 재부팅
```
sudo reboot
```

경로를 업데이트하고 다음 환경 변수를 추가합니다.


$ export PATH=${PATH}:/usr/local/cuda-13.0/bin
$ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64

Windows에 NVIDIA 드라이버를 설치하려면 다음 단계를 수행합니다.

드라이버를 다운로드한 폴더를 열고 설치 파일을 실행합니다. 안내에 따라 드라이버를 설치하고 필요에 따라 인스턴스를 재부팅합니다.
디바이스 관리자를 사용하여 경고 아이콘이 표시된 Microsoft Basic Display Adapter라는 디스플레이 어댑터를 비활성화합니다. Windows 기능인 미디어 파운데이션 및 qWave(Quality Windows Audio Video Experience)를 설치합니다.

중요
Microsoft Remote Display Adapter라는 디스플레이 어댑터를 비활성화하지 마세요. Microsoft Remote Display Adapter가 비활성화된 경우 연결이 중단되고 재부팅된 후 인스턴스에 연결하려는 시도가 실패할 수 있습니다.
GPU가 올바르게 작동하는지 확인하려면 장치 관리자를 확인합니다.
GPU에서 최상의 성능을 얻으려면 Amazon EC2 인스턴스의 GPU 설정 최적화의 최적화 단계를 완료합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

NVIDIA 드라이버가 포함된 AMI

GRID 드라이버 설치

NVIDIA 퍼블릭 드라이버 설치

P6-B200 및 P6-B300 인스턴스 유형 고려 사항

옵션 1: 드라이버 전용 설치

참고

옵션 2: CUDA 툴킷을 사용하여 설치

사전 조건

툴킷 및 드라이버 다운로드

사전 조건

툴킷 및 드라이버 다운로드

중요