安裝 NVIDIA 公有驅動程式 - Amazon Elastic Compute Cloud

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

安裝 NVIDIA 公有驅動程式

如果 中所述 AWS Marketplace AMIs 使用包含 NVIDIA 驅動程式AMIs 不符合您的使用案例,您可以安裝公有驅動程式並自帶授權。安裝選項包括下列項目:

 

P6-B200 執行個體類型考量事項

P6-B200 平台是唯一的,因為它以 PCIe 裝置的形式向執行個體公開 Mellanox ConnectX 7 網路介面卡 (NICs)。這些 CX7 NICs 不會充當一般網路介面,而是充當 NVSwitch 橋接器,提供用於初始化和設定 NVFabric 的控制路徑,這是 GPU 互連的 NVLink 拓撲。

若要完全初始化系統,NVIDIA Fabric Manager 必須設定NVFabric和建立 NVSwitch 拓撲。這樣一來,InfiniBand 核心模組就能與 CX7 裝置通訊。

NVIDIA Fabric Manager 包含在 CUDA 工具組中。我們建議選項 2:使用 CUDA 工具組安裝使用此執行個體類型。

選項 1:僅限驅動程式安裝

若要安裝特定驅動程式,請登入您的執行個體,並從 http://www.nvidia.com/Download/Find.aspx:// 下載執行個體類型的 64 位元 NVIDIA 公有驅動程式。對於產品類型產品系列產品,請使用下表所示的選項。

然後遵循 NVIDIA 驅動程式安裝指南中的本機儲存庫安裝說明。 https://docs.nvidia.com/datacenter/tesla/driver-installation-guide/index.html

注意

P6-B200 執行個體類型需要安裝和設定 NVIDIA CUDA Toolkit 隨附的其他套件。如需詳細資訊,請參閱 中 Linux 發行版本的說明選項 2:使用 CUDA 工具組安裝

執行個體 產品類型 產品系列 產品 最低驅動程式版本
G3 Tesla M-Class M60 --
G4dn Tesla T 系列 T4 --
G5 Tesla A 系列 A10 470.00 或更新版本
G5g1 Tesla T 系列 NVIDIA T4G 470.82.01 或更新版本
G6 Tesla L 系列 L4 525.0 或更新版本
G6e Tesla L 系列 L40S 535.0 或更新版本
Gr6 Tesla L 系列 L4 525.0 或更新版本
P2 Tesla K 系列 K80 --
P3 Tesla V 系列 V100 --
P4d Tesla A 系列 A100 --
P4de Tesla A 系列 A100 --
P5 Tesla H 系列 H100 530 或更新版本
P5e Tesla H 系列 H200 550 或更新版本
P5en Tesla H 系列 H200 550 或更新版本
P6-B2002 Tesla HGX 系列 B200 570 或更新版本
P6e-GB200 Tesla HGX 系列 B200 570 或更新版本

1 G5g 執行個體的作業系統為 Linux aarch64。

2 對於 P6-B200 執行個體類型,設定 NVIDIA Fabric Manager 有額外的安裝需求。

選項 2:使用 CUDA 工具組安裝

安裝指示會因作業系統而略有不同。若要使用 NVIDIA CUDA 工具組在執行個體上安裝公有驅動程式,請遵循執行個體作業系統的指示。對於此處未顯示的執行個體作業系統,請遵循 NVIDIA 開發人員網站上的作業系統和執行個體類型架構說明。如需詳細資訊,請參閱 CUDA Toolkit Downloads

如需執行個體類型架構或其他規格,請參閱《Amazon EC2 執行個體類型參考》中的加速運算規格。

本節涵蓋在 Amazon Linux 2023 執行個體上安裝的 NVIDIA CUDA 工具組。本節中的命令範例是以 x86_64架構為基礎。

如需 arm64-sbsa命令,請參閱 CUDA Toolkit Downloads,然後選取適用於分佈的選項。指示會在您完成最終選擇後顯示。

先決條件

安裝工具組和驅動程式之前,請執行下列命令,以確保您擁有正確的核心標頭和開發套件版本。

[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
下載工具組和驅動程式

選擇要用於執行個體的安裝類型,並遵循相關聯的步驟。

RPM local installation

您可以遵循這些指示,將 CUDA 工具組安裝程式儲存庫套件下載到您的執行個體,然後擷取並註冊指定的套件。

若要檢視 NVIDIA 開發人員網站上的說明,請參閱 CUDA Toolkit Downloads

[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm [ec2-user ~]$ sudo rpm -i cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm
RPM network installation

您可以依照這些指示,在執行個體上向套件管理員註冊 CUDA 儲存庫。當您執行安裝步驟時,套件管理員只會下載必要的套件。

若要檢視 NVIDIA 開發人員網站上的說明,請參閱 CUDA Toolkit Downloads

[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb [ec2-user ~]$ sudo dpkg -i cuda-keyring_1.1-1_all.deb

本機和網路安裝的剩餘步驟相同。

  1. 完成 CUDA 工具組安裝

    [ec2-user ~]$ sudo dnf clean all [ec2-user ~]$ sudo dnf install cuda-toolkit -y
  2. 安裝驅動程式的開放式核心模組變體

    [ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y
  3. 安裝 GPUDirect Storage and Fabric Manager

    [ec2-user ~]$ sudo dnf install nvidia-gds -y [ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y
  4. 啟用 Fabric Manager 和驅動程式持久性

    [ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager [ec2-user ~]$ sudo systemctl enable nvidia-persistenced
  5. P6-B200 執行個體類型的其他組態:

    P6-B200 執行個體類型需要安裝和設定 NVIDIA CUDA Toolkit 隨附的其他套件。

    1. 安裝 NVIDIA Link Subnet Manager 和 ibstat

      [ec2-user ~]$ sudo dnf install nvlink5
    2. 在啟動時啟用 Infiniband 模組的自動載入。

      [ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
  6. 重新啟動執行個體

    [ec2-user ~]$ sudo reboot

本節涵蓋在 Ubuntu 24.04 執行個體上安裝的 NVIDIA CUDA 工具組。本節中的命令範例是以 x86_64架構為基礎。

如需 arm64-sbsa命令,請參閱 CUDA Toolkit Downloads,然後選取適用於分佈的選項。指示會在您完成最終選擇後顯示。

先決條件

安裝工具組和驅動程式之前,請執行下列命令,以確保您擁有正確的核心標頭和開發套件版本。

$ apt install linux-headers-$(uname -r)
下載工具組和驅動程式

選擇要用於執行個體的安裝類型,並遵循相關聯的步驟。

RPM local installation

您可以遵循這些指示,將 CUDA 工具組安裝程式儲存庫套件下載到您的執行個體,然後擷取並註冊指定的套件。

若要檢視 NVIDIA 開發人員網站上的說明,請參閱 CUDA Toolkit Downloads

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-ubuntu2404.pin $ sudo mv cuda-ubuntu2404.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb $ sudo dpkg -i cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb $ sudo cp /var/cuda-repo-ubuntu2404-13-0-local/cuda-*-keyring.gpg /usr/share/keyrings/
RPM network installation

您可以依照這些指示,在執行個體上向套件管理員註冊 CUDA 儲存庫。當您執行安裝步驟時,套件管理員只會下載必要的套件。

若要檢視 NVIDIA 開發人員網站上的說明,請參閱 CUDA Toolkit Downloads

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb $ sudo dpkg -i cuda-keyring_1.1-1_all.deb

本機和網路安裝的剩餘步驟相同。

  1. 完成 CUDA 工具組安裝

    $ sudo apt update $ sudo apt install cuda-toolkit -y
  2. 安裝驅動程式的開放式核心模組變體

    $ sudo apt install nvidia-open -y
  3. 安裝 GPUDirect Storage and Fabric Manager

    $ sudo apt install nvidia-gds -y $ sudo apt install nvidia-fabricmanager -y
  4. 啟用 Fabric Manager 和驅動程式持久性

    $ sudo systemctl enable nvidia-fabricmanager $ sudo systemctl enable nvidia-persistenced
  5. P6-B200 執行個體類型的其他組態:

    P6-B200 執行個體類型需要安裝和設定 NVIDIA CUDA Toolkit 隨附的其他套件。

    1. 安裝最新的 InfiniBand 特定裝置驅動程式 (mlx5_ib) 和診斷公用程式。

      $ sudo apt install linux-modules-extra-$(uname -r) -y $ sudo apt install infiniband-diags -y
    2. 安裝 NVIDIA Link Subnet Manager。

      $ sudo apt install nvlsm -y
  6. 重新啟動執行個體

    sudo reboot
  7. 更新您的路徑並新增下列環境變數。

    $ export PATH=${PATH}:/usr/local/cuda-13.0/bin $ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64

若要在 Windows 上安裝 NVIDIA 驅動程序,請依照下列步驟操作:

  1. 開啟您下載驅動程式的所在資料夾,並啟動安裝檔案。依照指示安裝驅動程式,並視需要將執行個體重新開機。

  2. 使用 Device Manager 停用標有警告圖示的名為 Microsoft Basic Display Adapter 的顯示轉接器。安裝這些 Windows 功能:Media FoundationQuality Windows Audio Video Experience (高品質 Windows 音訊/視訊體驗)。

    重要

    請勿停用名為 Microsoft Remote Display Adapter 的顯示轉接器。如果停用 Microsoft Remote Display Adapter,您的連線可能會中斷,並在重新開機後會嘗試連線至執行個體可能會失敗。

  3. 檢查裝置管理員,確認 GPU 是否正常運作。

  4. 若要達到 GPU 的最佳效能,請完成在 Amazon EC2 執行個體最佳化 GPU 設定中的最佳化步驟。