本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
安裝 NVIDIA 公有驅動程式
如果 中所述 AWS Marketplace AMIs 使用包含 NVIDIA 驅動程式AMIs 不符合您的使用案例,您可以安裝公有驅動程式並自帶授權。安裝選項包括下列項目:
-
選項 2:使用 CUDA 工具組安裝 (建議 Linux 發行版本使用)
P6-B200 執行個體類型考量事項
P6-B200 平台是唯一的,因為它以 PCIe 裝置的形式向執行個體公開 Mellanox ConnectX 7 網路介面卡 (NICs)。這些 CX7 NICs 不會充當一般網路介面,而是充當 NVSwitch 橋接器,提供用於初始化和設定 NVFabric 的控制路徑,這是 GPU 互連的 NVLink 拓撲。
若要完全初始化系統,NVIDIA Fabric Manager 必須設定NVFabric和建立 NVSwitch 拓撲。這樣一來,InfiniBand 核心模組就能與 CX7 裝置通訊。
NVIDIA Fabric Manager 包含在 CUDA 工具組中。我們建議選項 2:使用 CUDA 工具組安裝使用此執行個體類型。
選項 1:僅限驅動程式安裝
若要安裝特定驅動程式,請登入您的執行個體,並從 http://www.nvidia.com/Download/Find.aspx
然後遵循 NVIDIA 驅動程式安裝指南中的本機儲存庫安裝說明。 https://docs.nvidia.com/datacenter/tesla/driver-installation-guide/index.html
注意
P6-B200 執行個體類型需要安裝和設定 NVIDIA CUDA Toolkit 隨附的其他套件。如需詳細資訊,請參閱 中 Linux 發行版本的說明選項 2:使用 CUDA 工具組安裝。
| 執行個體 | 產品類型 | 產品系列 | 產品 | 最低驅動程式版本 |
|---|---|---|---|---|
| G3 | Tesla | M-Class | M60 | -- |
| G4dn | Tesla | T 系列 | T4 | -- |
| G5 | Tesla | A 系列 | A10 | 470.00 或更新版本 |
| G5g1 | Tesla | T 系列 | NVIDIA T4G | 470.82.01 或更新版本 |
| G6 | Tesla | L 系列 | L4 | 525.0 或更新版本 |
| G6e | Tesla | L 系列 | L40S | 535.0 或更新版本 |
| Gr6 | Tesla | L 系列 | L4 | 525.0 或更新版本 |
| P2 | Tesla | K 系列 | K80 | -- |
| P3 | Tesla | V 系列 | V100 | -- |
| P4d | Tesla | A 系列 | A100 | -- |
| P4de | Tesla | A 系列 | A100 | -- |
| P5 | Tesla | H 系列 | H100 | 530 或更新版本 |
| P5e | Tesla | H 系列 | H200 | 550 或更新版本 |
| P5en | Tesla | H 系列 | H200 | 550 或更新版本 |
| P6-B2002 | Tesla | HGX 系列 | B200 | 570 或更新版本 |
| P6e-GB200 | Tesla | HGX 系列 | B200 | 570 或更新版本 |
1 G5g 執行個體的作業系統為 Linux aarch64。
2 對於 P6-B200 執行個體類型,設定 NVIDIA Fabric Manager 有額外的安裝需求。
選項 2:使用 CUDA 工具組安裝
安裝指示會因作業系統而略有不同。若要使用 NVIDIA CUDA 工具組在執行個體上安裝公有驅動程式,請遵循執行個體作業系統的指示。對於此處未顯示的執行個體作業系統,請遵循 NVIDIA 開發人員網站上的作業系統和執行個體類型架構說明。如需詳細資訊,請參閱 CUDA Toolkit Downloads
如需執行個體類型架構或其他規格,請參閱《Amazon EC2 執行個體類型參考》中的加速運算規格。
本節涵蓋在 Amazon Linux 2023 執行個體上安裝的 NVIDIA CUDA 工具組。本節中的命令範例是以 x86_64架構為基礎。
如需 arm64-sbsa命令,請參閱 CUDA Toolkit Downloads
先決條件
安裝工具組和驅動程式之前,請執行下列命令,以確保您擁有正確的核心標頭和開發套件版本。
[ec2-user ~]$sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
下載工具組和驅動程式
選擇要用於執行個體的安裝類型,並遵循相關聯的步驟。
本機和網路安裝的剩餘步驟相同。
-
完成 CUDA 工具組安裝
[ec2-user ~]$sudo dnf clean all[ec2-user ~]$sudo dnf install cuda-toolkit -y -
安裝驅動程式的開放式核心模組變體
[ec2-user ~]$sudo dnf module install nvidia-driver:open-dkms -y -
安裝 GPUDirect Storage and Fabric Manager
[ec2-user ~]$sudo dnf install nvidia-gds -y[ec2-user ~]$sudo dnf install nvidia-fabric-manager -y -
啟用 Fabric Manager 和驅動程式持久性
[ec2-user ~]$sudo systemctl enable nvidia-fabricmanager[ec2-user ~]$sudo systemctl enable nvidia-persistenced -
P6-B200 執行個體類型的其他組態:
P6-B200 執行個體類型需要安裝和設定 NVIDIA CUDA Toolkit 隨附的其他套件。
-
安裝 NVIDIA Link Subnet Manager 和
ibstat。[ec2-user ~]$sudo dnf install nvlink5 -
在啟動時啟用 Infiniband 模組的自動載入。
[ec2-user ~]$echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
-
-
重新啟動執行個體
[ec2-user ~]$sudo reboot
本節涵蓋在 Ubuntu 24.04 執行個體上安裝的 NVIDIA CUDA 工具組。本節中的命令範例是以 x86_64架構為基礎。
如需 arm64-sbsa命令,請參閱 CUDA Toolkit Downloads
先決條件
安裝工具組和驅動程式之前,請執行下列命令,以確保您擁有正確的核心標頭和開發套件版本。
$apt install linux-headers-$(uname -r)
下載工具組和驅動程式
選擇要用於執行個體的安裝類型,並遵循相關聯的步驟。
本機和網路安裝的剩餘步驟相同。
-
完成 CUDA 工具組安裝
$sudo apt update$sudo apt install cuda-toolkit -y -
安裝驅動程式的開放式核心模組變體
$sudo apt install nvidia-open -y -
安裝 GPUDirect Storage and Fabric Manager
$sudo apt install nvidia-gds -y$sudo apt install nvidia-fabricmanager -y -
啟用 Fabric Manager 和驅動程式持久性
$sudo systemctl enable nvidia-fabricmanager$sudo systemctl enable nvidia-persistenced -
P6-B200 執行個體類型的其他組態:
P6-B200 執行個體類型需要安裝和設定 NVIDIA CUDA Toolkit 隨附的其他套件。
-
安裝最新的 InfiniBand 特定裝置驅動程式 (
mlx5_ib) 和診斷公用程式。$sudo apt install linux-modules-extra-$(uname -r) -y$sudo apt install infiniband-diags -y -
安裝 NVIDIA Link Subnet Manager。
$sudo apt install nvlsm -y
-
-
重新啟動執行個體
sudo reboot -
更新您的路徑並新增下列環境變數。
$export PATH=${PATH}:/usr/local/cuda-13.0/bin$export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64
若要在 Windows 上安裝 NVIDIA 驅動程序,請依照下列步驟操作:
-
開啟您下載驅動程式的所在資料夾,並啟動安裝檔案。依照指示安裝驅動程式,並視需要將執行個體重新開機。
-
使用 Device Manager 停用標有警告圖示的名為 Microsoft Basic Display Adapter 的顯示轉接器。安裝這些 Windows 功能:Media Foundation 和 Quality Windows Audio Video Experience (高品質 Windows 音訊/視訊體驗)。
重要
請勿停用名為 Microsoft Remote Display Adapter 的顯示轉接器。如果停用 Microsoft Remote Display Adapter,您的連線可能會中斷,並在重新開機後會嘗試連線至執行個體可能會失敗。
-
檢查裝置管理員,確認 GPU 是否正常運作。
-
若要達到 GPU 的最佳效能,請完成在 Amazon EC2 執行個體最佳化 GPU 設定中的最佳化步驟。