# NVIDIA パブリックドライバーのインストール
<a name="public-nvidia-driver"></a>

「[NVIDIA ドライバーが付属する AMI を使用する](preinstalled-nvidia-driver.md)」に記載されている AWS Marketplace AMI がユースケースに適さない場合、パブリックドライバーをインストールして独自のライセンスを使用できます。インストールオプションは以下のとおりです。
+ [オプション 1: ドライバーのみのインストール](#public-nvidia-driver-only-install)
+ [オプション 2: CUDA ツールキットを使用して をインストールする](#public-nvidia-driver-cuda-install) (Linux ディストリビューションに推奨)

 
**P6-B200 および P6-B300 インスタンスタイプに関する考慮事項**  
P6-B200 および P6-B300 プラットフォームは、Mellanox ConnectX ネットワークインターフェイスカード (NIC) を PCIe デバイスとしてインスタンスに公開するという点で独特です。これらの NIC は一般的なネットワークインターフェイスとして機能しませんが、GPU 相互接続の NVLink トポロジである NVFabric を初期化および設定するための制御パスを提供する NVSwitch ブリッジとして機能します。

システムを完全に初期化するには、NVIDIA Fabric Manager が `NVFabric` を設定し、NVSwitch トポロジを確立する必要があります。これにより、InfiniBand カーネルモジュールは Mellanox ConnectX NIC と通信できるようになります。

NVIDIA Fabric Manager は CUDA ツールキットに含まれています。このインスタンスタイプには「[オプション 2: CUDA ツールキットを使用して をインストールする](#public-nvidia-driver-cuda-install)」をお勧めします。

## オプション 1: ドライバーのみのインストール
<a name="public-nvidia-driver-only-install"></a>

特定のドライバーをインストールするには、お使いのインスタンスにログオンし、使用するインスタンスタイプに適した 64 ビット NVIDIA パブリックドライバーを [http://www.nvidia.com/Download/Find.aspx](http://www.nvidia.com/Download/Find.aspx) からダウンロードします。**[製品タイプ]**、**[製品シリーズ]**、**[製品]** の順にクリックし、次の表に示すオプションを使用します。

次に、「[NVIDIA Driver Installation Guide](https://docs.nvidia.com/datacenter/tesla/driver-installation-guide/index.html)」の「**Local Repository Installation**」の手順に沿って操作します。

**注記**  
P6-B200 および P6-B300 インスタンスタイプの場合、NVIDIA CUDA Toolkit にバンドルされた追加のパッケージのインストールと設定が必要です。詳細については、「[オプション 2: CUDA ツールキットを使用して をインストールする](#public-nvidia-driver-cuda-install)」のLinux ディストリビューションの手順を参照してください。


| インスタンス | 製品タイプ | 製品シリーズ | 製品 | 最小ドライバーバージョン | 
| --- | --- | --- | --- | --- | 
| G3 | Tesla | M-Class | M60 | -- | 
| G4dn | Tesla | T シリーズ | T4 | -- | 
| G5 | Tesla | A シリーズ | A10 | 470.00 以降 | 
| G5g1 | Tesla | T シリーズ | T4G | 470.82.01 以降 | 
| G6 | Tesla | L シリーズ | L4 | 525.0 以降 | 
| G6e | Tesla | L シリーズ | L40S | 535.0 以降 | 
| Gr6 | Tesla | L シリーズ | L4 | 525.0 以降 | 
| G7e | Tesla | HGX シリーズ | RTX PRO 6000 Blackwell | 575.0 以降 | 
| P2 | Tesla | K シリーズ | K80 | -- | 
| P3 | Tesla | V シリーズ | V100 | -- | 
| P4d | Tesla | A シリーズ | A100 | -- | 
| P4de | Tesla | A シリーズ | A100 | -- | 
| P5 | Tesla | H シリーズ | H100 | 530 以降 | 
| P5e | Tesla | H シリーズ | H200 | 550 以降 | 
| P5en | Tesla | H シリーズ | H200 | 550 以降 | 
| P6-B2002 | Tesla | HGX シリーズ | B200 | 570 以降 | 
| P6e-GB200 | Tesla | HGX シリーズ | B200 | 570 以降 | 
| P6-B3002 | Tesla | HGX シリーズ | B300 | 580 以降 | 

1 G5g インスタンスのオペレーティングシステムは Linux aarch64 です。

2 P6-B200 および P6-B300 インスタンスタイプの場合、NVIDIA Fabric Manager を設定するための追加のインストール要件があります。

## オプション 2: CUDA ツールキットを使用して をインストールする
<a name="public-nvidia-driver-cuda-install"></a>

インストール手順はオペレーティングシステムによって若干異なります。NVIDIA CUDA ツールキットを使用してインスタンスにパブリックドライバーをインストールするには、インスタンスオペレーティングシステムの手順に従います。ここに示されていないインスタンスオペレーティングシステムの場合は、NVIDIA Developer ウェブサイトに掲載されているオペレーティングシステムとインスタンスタイプのアーキテクチャの手順に従ってください。詳細については、「[CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads)」を参照してください。

インスタンスタイプのアーキテクチャやその他の仕様については、「*Amazon EC2 インスタンスタイプ*」リファレンスの「[Accelerated computing](https://docs.aws.amazon.com/ec2/latest/instancetypes/ac.html) specifications」を参照してください。

### Amazon Linux 2023
<a name="nvidia-public-install-driver-al2023"></a>

このセクションでは、Amazon Linux 2023 インスタンスへの NVIDIA CUDA ツールキットのインストールについて説明します。このセクションのコマンド例は、`x86_64` アーキテクチャに基づいています。

`arm64-sbsa` コマンドについては、[「CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=arm64-sbsa)」を参照して、ディストリビューションに適用するオプションを選択してください。手順は、最終的な選択を行った後に表示されます。

**前提条件**  
ツールキットとドライバーをインストールする前に、以下のコマンドを実行して、カーネルヘッダーと開発パッケージのバージョンが正しいことを確認します。

```
[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
```

**ツールキットとドライバーをダウンロードする**  
インスタンスに使用するインストールのタイプを選択し、関連する手順に従います。

------
#### [ RPM local installation ]

以下の手順に従って、CUDA ツールキットインストーラリポジトリバンドルをインスタンスにダウンロードし、指定されたバンドルを抽出して登録できます。

NVIDIA Developer ウェブサイトで手順を確認するには、「[CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Amazon-Linux&target_version=2023&target_type=rpm_local)」を参照してください。

```
[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm
[ec2-user ~]$ sudo rpm -i cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm
```

------
#### [ RPM network installation ]

これらの手順に従って、CUDA リポジトリをインスタンスのパッケージマネージャーに登録できます。インストール手順を実行すると、パッケージマネージャーによって必要なパッケージのみがダウンロードされます。

NVIDIA Developer ウェブサイトで手順を確認するには、「[CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Amazon-Linux&target_version=2023&target_type=rpm_network)」を参照してください。

```
[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
[ec2-user ~]$ sudo dpkg -i cuda-keyring_1.1-1_all.deb
```

------

残りの手順は、ローカルインストールとネットワークインストールの両方で同じです。

1. CUDA ツールキットのインストールを完了します

   ```
   [ec2-user ~]$ sudo dnf clean all
   [ec2-user ~]$ sudo dnf install cuda-toolkit -y
   ```

1. ドライバーのオープンカーネルモジュールバリアントをインストールします

   ```
   [ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y
   ```

1. GPUDirect Storage と Fabric Manager をインストールします

   ```
   [ec2-user ~]$ sudo dnf install nvidia-gds -y
   [ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y
   ```

1. Fabric Manager とドライバーの永続性を有効にします

   ```
   [ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager
   [ec2-user ~]$ sudo systemctl enable nvidia-persistenced
   ```

1. (*P6-B200 および P6-B300 のみ*) これらのインスタンスタイプの場合、NVIDIA CUDA Toolkit にバンドルされた追加のパッケージのインストールと設定が必要です。

   1. NVIDIA Link Subnet Manager と `ibstat` をインストールします。

      ```
      [ec2-user ~]$ sudo dnf install nvlink5
      ```

   1. 起動時の Infiniband モジュールの自動ロードを有効にします。

      ```
      [ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
      ```

1. インスタンスを再起動します。

   ```
   [ec2-user ~]$ sudo reboot
   ```

### Ubuntu 24.04
<a name="nvidia-public-install-driver-ubuntu2024"></a>

このセクションでは、Ubuntu 24.04 インスタンスへの NVIDIA CUDA ツールキットのインストールについて説明します。このセクションのコマンド例は、`x86_64` アーキテクチャに基づいています。

`arm64-sbsa` コマンドについては、[「CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=arm64-sbsa)」を参照して、ディストリビューションに適用するオプションを選択してください。手順は、最終的な選択を行った後に表示されます。

**前提条件**  
ツールキットとドライバーをインストールする前に、以下のコマンドを実行して、カーネルヘッダーと開発パッケージのバージョンが正しいことを確認します。

```
$ apt install linux-headers-$(uname -r)
```

**ツールキットとドライバーをダウンロードする**  
インスタンスに使用するインストールのタイプを選択し、関連する手順に従います。

------
#### [ RPM local installation ]

以下の手順に従って、CUDA ツールキットインストーラリポジトリバンドルをインスタンスにダウンロードし、指定されたバンドルを抽出して登録できます。

NVIDIA Developer ウェブサイトで手順を確認するには、「[CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=24.04&target_type=deb_local)」を参照してください。

```
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-ubuntu2404.pin
$ sudo mv cuda-ubuntu2404.pin /etc/apt/preferences.d/cuda-repository-pin-600
$ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb
$ sudo dpkg -i cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb
$ sudo cp /var/cuda-repo-ubuntu2404-13-0-local/cuda-*-keyring.gpg /usr/share/keyrings/
```

------
#### [ RPM network installation ]

これらの手順に従って、CUDA リポジトリをインスタンスのパッケージマネージャーに登録できます。インストール手順を実行すると、パッケージマネージャーによって必要なパッケージのみがダウンロードされます。

NVIDIA Developer ウェブサイトで手順を確認するには、「[CUDA Toolkit Downloads](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=24.04&target_type=deb_network)」を参照してください。

```
$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
$ sudo dpkg -i cuda-keyring_1.1-1_all.deb
```

------

残りの手順は、ローカルインストールとネットワークインストールの両方で同じです。

1. CUDA ツールキットのインストールを完了します

   ```
   $ sudo apt update
   $ sudo apt install cuda-toolkit -y
   ```

1. ドライバーのオープンカーネルモジュールバリアントをインストールします

   ```
   $ sudo apt install nvidia-open -y
   ```

1. GPUDirect Storage と Fabric Manager をインストールします

   ```
   $ sudo apt install nvidia-gds -y
   $ sudo apt install nvidia-fabricmanager -y
   ```

1. Fabric Manager とドライバーの永続性を有効にします

   ```
   $ sudo systemctl enable nvidia-fabricmanager
   $ sudo systemctl enable nvidia-persistenced
   ```

1. (*P6-B200 および P6-B300 のみ*) これらのインスタンスタイプの場合、NVIDIA CUDA Toolkit にバンドルされた追加のパッケージのインストールと設定が必要です。

   1. 最新の InfiniBand 固有のデバイスドライバーと診断ユーティリティをインストールします。

      ```
      $ sudo apt install linux-modules-extra-$(uname -r) -y
      $ sudo apt install infiniband-diags -y
      ```

   1. NVIDIA Link Subnet Manager をインストールします。

      ```
      $ sudo apt install nvlsm -y
      ```

1. インスタンスを再起動します。

   ```
   sudo reboot
   ```

1. パスを更新し、以下の環境変数を追加します。

   ```
   $ export PATH=${PATH}:/usr/local/cuda-13.0/bin
   $ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64
   ```

### Windows オペレーティングシステム
<a name="nvidia-public-install-driver-windows"></a>

Windows に NVIDIA ドライバーをインストールするには、次のステップに従ってください。

1. ドライバーをダウンロードしたフォルダを開き、インストールファイルを起動します。ドライバーをインストールする手順にしたがい、必要に応じてインスタンスを再起動します。

1. デバイスマネージャを使用して、警告アイコンが表示されている **[Microsoft 基本ディスプレイアダプター]** という名前のディスプレイアダプターを無効にします。Windows の機能である、**Media Foundation** および **Quality Windows Audio Video Experience** をインストールします。
**重要**  
**[Microsoft リモートディスプレイアダプター]** という名前のディスプレイアダプターを無効にしないでください。**[Microsoft リモートディスプレイアダプター]** が無効になっていると、接続が中断され、再起動後にインスタンスに接続しようとすると失敗する可能性があります。

1. デバイスマネージャーで、GPU が正しく動作していることを確認します。

1. GPU の最善のパフォーマンスを実現するには、「[Amazon EC2 インスタンスの GPU 設定を最適化する](optimize_gpu.md)」の最適化ステップを完了します。