NVIDIA パブリックドライバーのインストール
「NVIDIA ドライバーが付属する AMI を使用する」に記載されている AWS Marketplace AMI がユースケースに適さない場合、パブリックドライバーをインストールして独自のライセンスを使用できます。インストールオプションは以下のとおりです。
-
オプション 2: CUDA ツールキットを使用して をインストールする (Linux ディストリビューションに推奨)
P6-B200 インスタンスタイプに関する考慮事項
P6-B200 プラットフォームは、Mellanox ConnectX 7 ネットワークインターフェイスカード (NIC) を PCIe デバイスとしてインスタンスに公開するという点で独特です。これらの CX7 NIC は一般的なネットワークインターフェイスとして機能しませんが、GPU 相互接続の NVLink トポロジである NVFabric を初期化および設定するための制御パスを提供する NVSwitch ブリッジとして機能します。
システムを完全に初期化するには、NVIDIA Fabric Manager が NVFabric を設定し、NVSwitch トポロジを確立する必要があります。これにより、InfiniBand カーネルモジュールが CX7 デバイスと通信できるようになります。
NVIDIA Fabric Manager は CUDA ツールキットに含まれています。このインスタンスタイプには「オプション 2: CUDA ツールキットを使用して をインストールする」をお勧めします。
オプション 1: ドライバーのみのインストール
特定のドライバーをインストールするには、インスタンスにログオンし、http://www.nvidia.com/Download/Find.aspx
次に、「NVIDIA Driver Installation Guide
注記
P6-B200 インスタンスタイプの場合、NVIDIA CUDA Toolkit にバンドルされた追加のパッケージのインストールと設定が必要です。詳細については、「オプション 2: CUDA ツールキットを使用して をインストールする」のLinux ディストリビューションの手順を参照してください。
| インスタンス | 製品タイプ | 製品シリーズ | 製品 | 最小ドライバーバージョン |
|---|---|---|---|---|
| G3 | Tesla | M-Class | M60 | -- |
| G4dn | Tesla | T シリーズ | T4 | -- |
| G5 | Tesla | A シリーズ | A10 | 470.00 以降 |
| G5g1 | Tesla | T シリーズ | NVIDIA T4G | 470.82.01 以降 |
| G6 | Tesla | L シリーズ | L4 | 525.0 以降 |
| G6e | Tesla | L シリーズ | L40S | 535.0 以降 |
| Gr6 | Tesla | L シリーズ | L4 | 525.0 以降 |
| P2 | Tesla | K シリーズ | K80 | -- |
| P3 | Tesla | V シリーズ | V100 | -- |
| P4d | Tesla | A シリーズ | A100 | -- |
| P4de | Tesla | A シリーズ | A100 | -- |
| P5 | Tesla | H シリーズ | H100 | 530 以降 |
| P5e | Tesla | H シリーズ | H200 | 550 以降 |
| P5en | Tesla | H シリーズ | H200 | 550 以降 |
| P6-B2002 | Tesla | HGX シリーズ | B200 | 570 以降 |
| P6e-GB200 | Tesla | HGX シリーズ | B200 | 570 以降 |
1 G5g インスタンスのオペレーティングシステムは Linux aarch64 です。
2 P6-B200 インスタンスタイプの場合、NVIDIA Fabric Manager を設定するための追加のインストール要件があります。
オプション 2: CUDA ツールキットを使用して をインストールする
インストール手順はオペレーティングシステムによって若干異なります。NVIDIA CUDA ツールキットを使用してインスタンスにパブリックドライバーをインストールするには、インスタンスオペレーティングシステムの手順に従います。ここに示されていないインスタンスオペレーティングシステムの場合は、NVIDIA Developer ウェブサイトに掲載されているオペレーティングシステムとインスタンスタイプのアーキテクチャの手順に従ってください。詳細については、「CUDA Toolkit Downloads
インスタンスタイプのアーキテクチャやその他の仕様については、「Amazon EC2 インスタンスタイプ」リファレンスの「Accelerated computing specifications」を参照してください。
このセクションでは、Amazon Linux 2023 インスタンスへの NVIDIA CUDA ツールキットのインストールについて説明します。このセクションのコマンド例は、x86_64 アーキテクチャに基づいています。
arm64-sbsa コマンドについては、「CUDA Toolkit Downloads
前提条件
ツールキットとドライバーをインストールする前に、以下のコマンドを実行して、カーネルヘッダーと開発パッケージのバージョンが正しいことを確認します。
[ec2-user ~]$sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
ツールキットとドライバーをダウンロードする
インスタンスに使用するインストールのタイプを選択し、関連する手順に従います。
残りの手順は、ローカルインストールとネットワークインストールの両方で同じです。
-
CUDA ツールキットのインストールを完了します
[ec2-user ~]$sudo dnf clean all[ec2-user ~]$sudo dnf install cuda-toolkit -y -
ドライバーのオープンカーネルモジュールバリアントをインストールします
[ec2-user ~]$sudo dnf module install nvidia-driver:open-dkms -y -
GPUDirect Storage と Fabric Manager をインストールします
[ec2-user ~]$sudo dnf install nvidia-gds -y[ec2-user ~]$sudo dnf install nvidia-fabric-manager -y -
Fabric Manager とドライバーの永続性を有効にします
[ec2-user ~]$sudo systemctl enable nvidia-fabricmanager[ec2-user ~]$sudo systemctl enable nvidia-persistenced -
P6-B200 インスタンスタイプの以下の追加設定を行います
P6-B200 インスタンスタイプの場合、NVIDIA CUDA Toolkit にバンドルされた追加のパッケージのインストールと設定が必要です。
-
NVIDIA Link Subnet Manager と
ibstatをインストールします。[ec2-user ~]$sudo dnf install nvlink5 -
起動時の Infiniband モジュールの自動ロードを有効にします。
[ec2-user ~]$echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
-
-
インスタンスを再起動します。
[ec2-user ~]$sudo reboot
このセクションでは、Ubuntu 24.04 インスタンスへの NVIDIA CUDA ツールキットのインストールについて説明します。このセクションのコマンド例は、x86_64 アーキテクチャに基づいています。
arm64-sbsa コマンドについては、「CUDA Toolkit Downloads
前提条件
ツールキットとドライバーをインストールする前に、以下のコマンドを実行して、カーネルヘッダーと開発パッケージのバージョンが正しいことを確認します。
$apt install linux-headers-$(uname -r)
ツールキットとドライバーをダウンロードする
インスタンスに使用するインストールのタイプを選択し、関連する手順に従います。
残りの手順は、ローカルインストールとネットワークインストールの両方で同じです。
-
CUDA ツールキットのインストールを完了します
$sudo apt update$sudo apt install cuda-toolkit -y -
ドライバーのオープンカーネルモジュールバリアントをインストールします
$sudo apt install nvidia-open -y -
GPUDirect Storage と Fabric Manager をインストールします
$sudo apt install nvidia-gds -y$sudo apt install nvidia-fabricmanager -y -
Fabric Manager とドライバーの永続性を有効にします
$sudo systemctl enable nvidia-fabricmanager$sudo systemctl enable nvidia-persistenced -
P6-B200 インスタンスタイプの以下の追加設定を行います
P6-B200 インスタンスタイプの場合、NVIDIA CUDA Toolkit にバンドルされた追加のパッケージのインストールと設定が必要です。
-
最新の InfiniBand 固有のデバイスドライバー (
mlx5_ib) と診断ユーティリティをインストールします。$sudo apt install linux-modules-extra-$(uname -r) -y$sudo apt install infiniband-diags -y -
NVIDIA Link Subnet Manager をインストールします。
$sudo apt install nvlsm -y
-
-
インスタンスを再起動します。
sudo reboot -
パスを更新し、以下の環境変数を追加します。
$export PATH=${PATH}:/usr/local/cuda-13.0/bin$export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64
Windows に NVIDIA ドライバーをインストールするには、次のステップに従ってください。
-
ドライバーをダウンロードしたフォルダを開き、インストールファイルを起動します。ドライバーをインストールする手順にしたがい、必要に応じてインスタンスを再起動します。
-
デバイスマネージャを使用して、警告アイコンが表示されている [Microsoft 基本ディスプレイアダプター] という名前のディスプレイアダプターを無効にします。Windows の機能である、Media Foundation および Quality Windows Audio Video Experience をインストールします。
重要
[Microsoft リモートディスプレイアダプター] という名前のディスプレイアダプターを無効にしないでください。[Microsoft リモートディスプレイアダプター] が無効になっていると、接続が中断され、再起動後にインスタンスに接続しようとすると失敗する可能性があります。
-
デバイスマネージャーで、GPU が正しく動作していることを確認します。
-
GPU の最善のパフォーマンスを実現するには、「Amazon EC2 インスタンスの GPU 設定を最適化する」の最適化ステップを完了します。