NVIDIA DRA ドライバーと NVIDIA デバイスプラグインの比較 NVIDIA DRA ドライバーをインストールする NVIDIA Kubernetes デバイスプラグインをインストールする

Amazon EKS で NVIDIA GPU デバイスを管理する

NVIDIA GPU は、機械学習トレーニング、推論、ハイパフォーマンスコンピューティングワークロードに広く使用されています。Amazon EKS は、EKS クラスターで NVIDIA GPU デバイスを管理できるように 2 つのメカニズムをサポートしています。GPU 用 NVIDIA DRA ドライバーと NVIDIA Kubernetes デバイスプラグインです。

Kubernetes バージョン 1.34 以降を実行しているクラスターで EKS マネージドノードグループまたはセルフマネージドノードグループを使用して新たにデプロイする場合は、NVIDIA DRA ドライバーを使用することをお勧めします。NVIDIA DRA ドライバーを使用すると、GPU を柔軟に割り当てたり、コンテナ間で GPU を共有したりできます。

NVIDIA DRA ドライバーは、Karpenter または EKS オートモードではサポートされていません。Karpenter および EKS オートモードでは NVIDIA デバイスプラグインを使用してください。NVIDIA デバイスプラグインは、EKS マネージドノードグループとセルフマネージドノードでも引き続きサポートされます。

NVIDIA DRA ドライバーと NVIDIA デバイスプラグインの比較

機能	NVIDIA DRA ドライバー	NVIDIA デバイスプラグイン
最小限必要な Kubernetes バージョン	1.34	EKS でサポートされているすべての Kubernetes バージョン
EKS コンピューティング	マネージドノードグループ、セルフマネージドノード	EKS オートモード、Karpenter、マネージドノードグループ、セルフマネージドノード
EKS 最適化 AMI	AL2023 (NVIDIA)	AL2023 (NVIDIA)、Bottlerocket
デバイスアドバタイズ	GPU モデル、メモリ、ドライバーバージョン、トポロジーなど、`ResourceSlice` オブジェクトによる豊富な属性	`nvidia.com/gpu` 拡張リソースの整数カウント
GPU 共有	同じポッド内の複数のコンテナが共有 `ResourceClaim` リファレンスを介して GPU を共有できる	サポート外。各 GPU は 1 つのコンテナにのみ割り当てられる。
ComputeDomains	安全なマルチノード GPU 通信を実現できるように、`ComputeDomain` リソースを介してマルチノード NVLink (MNNVL) を管理する	サポートされていません
属性ベースの選択	CEL 式を使用してモデルやメモリといった属性で GPU をフィルタリングする	サポートされていません
トポロジー認識 EFA 割り当て	DRA ネイティブトポロジー認識	自動トポロジー認識 (EKS 最適化 AL2023 AMI のみ)

NVIDIA DRA ドライバーをインストールする

GPU 用 NVIDIA DRA ドライバーは、GPU と ComputeDomains という 2 つのタイプのリソースを管理します。また、gpu-kubelet-plugin と compute-domain-kubelet-plugin という 2 つの DRA kubelet プラグインを実行します。それぞれ、インストール中に個別に有効または無効にできます。このガイドでは、GPU の割り当てに焦点を当てます。ComputeDomains の使用方法については、「Amazon EKS で P6e-GB200 UltraServer を使用する」を参照してください。

前提条件

Amazon EKS クラスターで Kubernetes バージョン 1.34 以降を実行していて、EKS マネージドノードグループまたはセルフマネージドノードグループを使用していること。
ノードのインスタンスタイプが NVIDIA GPU であること (P や G インスタンスなど)。
ノードに NVIDIA GPU 用のホストレベルのコンポーネントがインストールされていること。EKS 最適化 AL2023 または Bottlerocket NVIDIA AMI を使用する場合には、ホストレベルの NVIDIA ドライバー、CUDA ユーザーモードドライバー、コンテナツールキットがプリインストールされていること。
コマンドライン環境に Helm がインストールされていること。詳細については、「Setup Helm instructions」を参照してください。
クラスターと通信するように kubectl が設定されていること。詳細については、「kubectl をインストールまたは更新する」を参照してください。

手順

重要

GPU デバイスの管理に NVIDIA DRA ドライバーを使用する場合、同じノードに NVIDIA デバイスプラグインも一緒にデプロイすることはできません。最新の情報については、アップストリーム Kubernetes KEP-5004 を参照してください。

重要

Bottlerocket で NVIDIA DRA ドライバーを使用する機能は、現時点ではサポートされていません。

NVIDIA DRA ドライバーの Helm チャートリポジトリを追加します。
```
helm repo add nvidia https://helm.ngc.nvidia.com/nvidia
```
ローカル Helm リポジトリを更新します。
```
helm repo update
```
NVIDIA DRA ドライバーの最新バージョンを入手します。
```
helm search repo nvidia/nvidia-dra
```

NVIDIA DRA ドライバーをインストールします。


helm install nvidia-dra-driver-gpu nvidia/nvidia-dra-driver-gpu \
    --create-namespace \
    --namespace nvidia-dra-driver-gpu \
    --set resources.computeDomains.enabled=false \
    --set 'gpuResourcesEnabledOverride=true'

詳細な設定オプションについては、NVIDIA DRA ドライバーの Helm チャートを参照してください。

DRA ドライバーポッドが実行中であることを確認します。
```
kubectl get pods -n nvidia-dra-driver-gpu
```
DeviceClass オブジェクトが作成されたことを確認します。
```
kubectl get deviceclass
```
```
NAME            AGE
gpu.nvidia.com  60s
```
ResourceSlice オブジェクトが GPU ノードに公開されることを確認します。
```
kubectl get resourceslice
```
DRA ドライバーを使用して NVIDIA GPU をリクエストするには、gpu.nvidia.com DeviceClass を参照する ResourceClaimTemplate を作成し、それをポッド仕様で参照します。次の例では、GPU を 1 つだけリクエストしています。トポロジーに沿った EFA インターフェイスを備えた NVIDIA GPU を割り当てる手順については、「EFA と GPU/Neuron デバイスのトポロジー認識割り当て」を参照してください。
```
apiVersion: resource.k8s.io/v1
kind: ResourceClaimTemplate
metadata:
  name: single-gpu
spec:
  spec:
    devices:
      requests:
      - name: gpu
        exactly:
          deviceClassName: gpu.nvidia.com
          count: 1
---
apiVersion: v1
kind: Pod
metadata:
  name: gpu-workload
spec:
  containers:
  - name: app
    ...
    resources:
      claims:
      - name: gpu
  resourceClaims:
  - name: gpu
    resourceClaimTemplateName: single-gpu
  tolerations:
  - key: "nvidia.com/gpu"
    operator: "Exists"
    effect: "NoSchedule"
```

NVIDIA Kubernetes デバイスプラグインをインストールする

NVIDIA Kubernetes デバイスプラグインは、NVIDIA GPU を nvidia.com/gpu 拡張リソースとしてアドバタイズします。コンテナリソースのリクエストや制限の際に GPU をリクエストします。

前提条件

Amazon EKS クラスター。
ノードのインスタンスタイプが NVIDIA GPU であり、EKS 最適化 AL2023 NVIDIA AMI を使用していること。EKS 最適化 Bottlerocket AMI に NVIDIA デバイスプラグインが含まれているため、別途インストールする必要はありません。
コマンドライン環境に Helm がインストールされていること。詳細については、「Setup Helm instructions」を参照してください。
クラスターと通信するように kubectl が設定されていること。詳細については、「kubectl をインストールまたは更新する」を参照してください。

手順

NVIDIA デバイスプラグインの Helm チャートリポジトリを追加します。
```
helm repo add nvdp https://nvidia.github.io/k8s-device-plugin
```
ローカル Helm リポジトリを更新します。
```
helm repo update
```
NVIDIA Kubernetes デバイスプラグインをインストールします。
```
helm install nvdp nvdp/nvidia-device-plugin \
    --namespace nvidia \
    --create-namespace \
    --set gfd.enabled=true
```
EFA デバイスを含むノードで MOFED を無効にする
k8s-device-plugin v0.19.0 以降では、--mofed-enabled フラグがデフォルトで true に設定されています。そのため、NVIDIA デバイスプラグインでは、GPU (nvidia.com/gpu) をリクエストするコンテナにすべての /dev/infiniband/uverbs* デバイスがマウントされます。これは、uverbs デバイスのマウントを管理する AWS EFA デバイスプラグインと競合します。デフォルトでは NVIDIA デバイスプラグインですべての uverbs デバイスが要求されるため、これはノード上のすべてではなく一部の EFA デバイスをリクエストするワークロードに影響します。
ノードに EFA デバイスがある場合は、NVIDIA デバイスプラグインのインストール時に MOFED を明示的に無効にします。
```
helm upgrade --install nvdp nvdp/nvidia-device-plugin \
    --namespace nvidia \
    --create-namespace \
    --set gfd.enabled=true \
    --set mofedEnabled=false
```
NVIDIA GPU Operator を使用して NVIDIA デバイスプラグインを管理している場合は、devicePlugin.env フィールドを使用して MOFED を無効にします。
```
helm upgrade --install gpu-operator nvidia/gpu-operator \
    --namespace gpu-operator \
    --set 'devicePlugin.env[0].name=MOFED_ENABLED' \
    --set 'devicePlugin.env[0].value=false'
```
詳細については、NVIDIA k8s-device-plugin の問題 #1692 を参照してください。
注記
NVIDIA GPU Operator を使用して NVIDIA Kubernetes デバイスプラグインをインストールおよび管理することもできます。これにより、GPU のプロビジョニングに必要なすべての NVIDIA ソフトウェアコンポーネントを自動的に管理できます。

DaemonSet という NVIDIA デバイスプラグインが実行されていることを確認します。


kubectl get ds -n nvidia nvdp-nvidia-device-plugin


NAME                        DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
nvdp-nvidia-device-plugin   2         2         2       2            2           <none>          60s

ノードを調べて割り当て可能な GPU があることを確認します。


kubectl get nodes "-o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\.com/gpu"

出力例は次のとおりです。


NAME                                           GPU
ip-192-168-11-225.us-west-2.compute.internal   1
ip-192-168-24-96.us-west-2.compute.internal    1

ポッド内で NVIDIA GPU をリクエストする

デバイスプラグインを使用して NVIDIA GPU をリクエストするには、コンテナリソースのリクエストと制限で nvidia.com/gpu リソースを指定します。


apiVersion: v1
kind: Pod
metadata:
  name: nvidia-smi
spec:
  restartPolicy: OnFailure
  containers:
  - name: gpu-demo
    image: public.ecr.aws/amazonlinux/amazonlinux:2023-minimal
    command: ["/bin/sh", "-c"]
    args: ["nvidia-smi && tail -f /dev/null"]
    resources:
      limits:
        nvidia.com/gpu: 1
      requests:
        nvidia.com/gpu: 1
  tolerations:
  - key: "nvidia.com/gpu"
    operator: "Equal"
    value: "true"
    effect: "NoSchedule"

このテストを実行するには、マニフェストを適用してログを表示します。


kubectl apply -f nvidia-smi.yaml
kubectl logs nvidia-smi

出力例は次のとおりです。


+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI XXX.XXX.XX            Driver Version: XXX.XXX.XX     CUDA Version: XX.X      |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA L4                      On  |   00000000:31:00.0 Off |                    0 |
| N/A   27C    P8             11W /   72W |       0MiB /  23034MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Neuron アクセラレーターを管理する

recipe

Amazon EKS で NVIDIA GPU デバイスを管理する

NVIDIA DRA ドライバーと NVIDIA デバイスプラグインの比較

NVIDIA DRA ドライバーをインストールする

前提条件

手順

重要

重要

NVIDIA Kubernetes デバイスプラグインをインストールする

前提条件

手順

EFA デバイスを含むノードで MOFED を無効にする

注記

ポッド内で NVIDIA GPU をリクエストする