NVIDIA パブリックドライバーのインストール - Amazon Elastic Compute Cloud

NVIDIA パブリックドライバーのインストール

NVIDIA ドライバーが付属する AMI を使用する」に記載されている AWS Marketplace AMI がユースケースに適さない場合、パブリックドライバーをインストールして独自のライセンスを使用できます。インストールオプションは以下のとおりです。

 

P6-B200 インスタンスタイプに関する考慮事項

P6-B200 プラットフォームは、Mellanox ConnectX 7 ネットワークインターフェイスカード (NIC) を PCIe デバイスとしてインスタンスに公開するという点で独特です。これらの CX7 NIC は一般的なネットワークインターフェイスとして機能しませんが、GPU 相互接続の NVLink トポロジである NVFabric を初期化および設定するための制御パスを提供する NVSwitch ブリッジとして機能します。

システムを完全に初期化するには、NVIDIA Fabric Manager が NVFabric を設定し、NVSwitch トポロジを確立する必要があります。これにより、InfiniBand カーネルモジュールが CX7 デバイスと通信できるようになります。

NVIDIA Fabric Manager は CUDA ツールキットに含まれています。このインスタンスタイプには「オプション 2: CUDA ツールキットを使用して をインストールする」をお勧めします。

オプション 1: ドライバーのみのインストール

特定のドライバーをインストールするには、インスタンスにログオンし、http://www.nvidia.com/Download/Find.aspx から、使用するインスタンスタイプに適した 64 ビット NVIDIA パブリックドライバーをダウンロードします。[製品タイプ][製品シリーズ][製品] の順にクリックし、次の表に示すオプションを使用します。

次に、「NVIDIA Driver Installation Guide」の「Local Repository Installation」の手順に従います。

注記

P6-B200 インスタンスタイプの場合、NVIDIA CUDA Toolkit にバンドルされた追加のパッケージのインストールと設定が必要です。詳細については、「オプション 2: CUDA ツールキットを使用して をインストールする」のLinux ディストリビューションの手順を参照してください。

インスタンス 製品タイプ 製品シリーズ 製品 最小ドライバーバージョン
G3 Tesla M-Class M60 --
G4dn Tesla T シリーズ T4 --
G5 Tesla A シリーズ A10 470.00 以降
G5g1 Tesla T シリーズ NVIDIA T4G 470.82.01 以降
G6 Tesla L シリーズ L4 525.0 以降
G6e Tesla L シリーズ L40S 535.0 以降
Gr6 Tesla L シリーズ L4 525.0 以降
P2 Tesla K シリーズ K80 --
P3 Tesla V シリーズ V100 --
P4d Tesla A シリーズ A100 --
P4de Tesla A シリーズ A100 --
P5 Tesla H シリーズ H100 530 以降
P5e Tesla H シリーズ H200 550 以降
P5en Tesla H シリーズ H200 550 以降
P6-B2002 Tesla HGX シリーズ B200 570 以降
P6e-GB200 Tesla HGX シリーズ B200 570 以降

1 G5g インスタンスのオペレーティングシステムは Linux aarch64 です。

2 P6-B200 インスタンスタイプの場合、NVIDIA Fabric Manager を設定するための追加のインストール要件があります。

オプション 2: CUDA ツールキットを使用して をインストールする

インストール手順はオペレーティングシステムによって若干異なります。NVIDIA CUDA ツールキットを使用してインスタンスにパブリックドライバーをインストールするには、インスタンスオペレーティングシステムの手順に従います。ここに示されていないインスタンスオペレーティングシステムの場合は、NVIDIA Developer ウェブサイトに掲載されているオペレーティングシステムとインスタンスタイプのアーキテクチャの手順に従ってください。詳細については、「CUDA Toolkit Downloads」を参照してください。

インスタンスタイプのアーキテクチャやその他の仕様については、「Amazon EC2 インスタンスタイプ」リファレンスの「Accelerated computing specifications」を参照してください。

このセクションでは、Amazon Linux 2023 インスタンスへの NVIDIA CUDA ツールキットのインストールについて説明します。このセクションのコマンド例は、x86_64 アーキテクチャに基づいています。

arm64-sbsa コマンドについては、「CUDA Toolkit Downloads」を参照して、ディストリビューションに適用するオプションを選択してください。手順は、最終的な選択を行った後に表示されます。

前提条件

ツールキットとドライバーをインストールする前に、以下のコマンドを実行して、カーネルヘッダーと開発パッケージのバージョンが正しいことを確認します。

[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
ツールキットとドライバーをダウンロードする

インスタンスに使用するインストールのタイプを選択し、関連する手順に従います。

RPM local installation

以下の手順に従って、CUDA ツールキットインストーラリポジトリバンドルをインスタンスにダウンロードし、指定されたバンドルを抽出して登録できます。

NVIDIA Developer ウェブサイトで手順を確認するには、「CUDA Toolkit Downloads」を参照してください。

[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm [ec2-user ~]$ sudo rpm -i cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm
RPM network installation

これらの手順に従って、CUDA リポジトリをインスタンスのパッケージマネージャーに登録できます。インストール手順を実行すると、パッケージマネージャーによって必要なパッケージのみがダウンロードされます。

NVIDIA Developer ウェブサイトで手順を確認するには、「CUDA Toolkit Downloads」を参照してください。

[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb [ec2-user ~]$ sudo dpkg -i cuda-keyring_1.1-1_all.deb

残りの手順は、ローカルインストールとネットワークインストールの両方で同じです。

  1. CUDA ツールキットのインストールを完了します

    [ec2-user ~]$ sudo dnf clean all [ec2-user ~]$ sudo dnf install cuda-toolkit -y
  2. ドライバーのオープンカーネルモジュールバリアントをインストールします

    [ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y
  3. GPUDirect Storage と Fabric Manager をインストールします

    [ec2-user ~]$ sudo dnf install nvidia-gds -y [ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y
  4. Fabric Manager とドライバーの永続性を有効にします

    [ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager [ec2-user ~]$ sudo systemctl enable nvidia-persistenced
  5. P6-B200 インスタンスタイプの以下の追加設定を行います

    P6-B200 インスタンスタイプの場合、NVIDIA CUDA Toolkit にバンドルされた追加のパッケージのインストールと設定が必要です。

    1. NVIDIA Link Subnet Manager と ibstat をインストールします。

      [ec2-user ~]$ sudo dnf install nvlink5
    2. 起動時の Infiniband モジュールの自動ロードを有効にします。

      [ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
  6. インスタンスを再起動します。

    [ec2-user ~]$ sudo reboot

このセクションでは、Ubuntu 24.04 インスタンスへの NVIDIA CUDA ツールキットのインストールについて説明します。このセクションのコマンド例は、x86_64 アーキテクチャに基づいています。

arm64-sbsa コマンドについては、「CUDA Toolkit Downloads」を参照して、ディストリビューションに適用するオプションを選択してください。手順は、最終的な選択を行った後に表示されます。

前提条件

ツールキットとドライバーをインストールする前に、以下のコマンドを実行して、カーネルヘッダーと開発パッケージのバージョンが正しいことを確認します。

$ apt install linux-headers-$(uname -r)
ツールキットとドライバーをダウンロードする

インスタンスに使用するインストールのタイプを選択し、関連する手順に従います。

RPM local installation

以下の手順に従って、CUDA ツールキットインストーラリポジトリバンドルをインスタンスにダウンロードし、指定されたバンドルを抽出して登録できます。

NVIDIA Developer ウェブサイトで手順を確認するには、「CUDA Toolkit Downloads」を参照してください。

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-ubuntu2404.pin $ sudo mv cuda-ubuntu2404.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb $ sudo dpkg -i cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb $ sudo cp /var/cuda-repo-ubuntu2404-13-0-local/cuda-*-keyring.gpg /usr/share/keyrings/
RPM network installation

これらの手順に従って、CUDA リポジトリをインスタンスのパッケージマネージャーに登録できます。インストール手順を実行すると、パッケージマネージャーによって必要なパッケージのみがダウンロードされます。

NVIDIA Developer ウェブサイトで手順を確認するには、「CUDA Toolkit Downloads」を参照してください。

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb $ sudo dpkg -i cuda-keyring_1.1-1_all.deb

残りの手順は、ローカルインストールとネットワークインストールの両方で同じです。

  1. CUDA ツールキットのインストールを完了します

    $ sudo apt update $ sudo apt install cuda-toolkit -y
  2. ドライバーのオープンカーネルモジュールバリアントをインストールします

    $ sudo apt install nvidia-open -y
  3. GPUDirect Storage と Fabric Manager をインストールします

    $ sudo apt install nvidia-gds -y $ sudo apt install nvidia-fabricmanager -y
  4. Fabric Manager とドライバーの永続性を有効にします

    $ sudo systemctl enable nvidia-fabricmanager $ sudo systemctl enable nvidia-persistenced
  5. P6-B200 インスタンスタイプの以下の追加設定を行います

    P6-B200 インスタンスタイプの場合、NVIDIA CUDA Toolkit にバンドルされた追加のパッケージのインストールと設定が必要です。

    1. 最新の InfiniBand 固有のデバイスドライバー (mlx5_ib) と診断ユーティリティをインストールします。

      $ sudo apt install linux-modules-extra-$(uname -r) -y $ sudo apt install infiniband-diags -y
    2. NVIDIA Link Subnet Manager をインストールします。

      $ sudo apt install nvlsm -y
  6. インスタンスを再起動します。

    sudo reboot
  7. パスを更新し、以下の環境変数を追加します。

    $ export PATH=${PATH}:/usr/local/cuda-13.0/bin $ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64

Windows に NVIDIA ドライバーをインストールするには、次のステップに従ってください。

  1. ドライバーをダウンロードしたフォルダを開き、インストールファイルを起動します。ドライバーをインストールする手順にしたがい、必要に応じてインスタンスを再起動します。

  2. デバイスマネージャを使用して、警告アイコンが表示されている [Microsoft 基本ディスプレイアダプター] という名前のディスプレイアダプターを無効にします。Windows の機能である、Media Foundation および Quality Windows Audio Video Experience をインストールします。

    重要

    [Microsoft リモートディスプレイアダプター] という名前のディスプレイアダプターを無効にしないでください。[Microsoft リモートディスプレイアダプター] が無効になっていると、接続が中断され、再起動後にインスタンスに接続しようとすると失敗する可能性があります。

  3. デバイスマネージャーで、GPU が正しく動作していることを確認します。

  4. GPU の最善のパフォーマンスを実現するには、「Amazon EC2 インスタンスの GPU 設定を最適化する」の最適化ステップを完了します。