NVIDIA GPU プラグインの欠落エラー

使用可能な GPU ノードがあるにもかかわらず、モデルのデプロイは GPU 不足エラーで失敗します。これは、NVIDIA デバイスプラグインが HyperPod クラスターにインストールされていない場合に発生します。

エラーメッセージ:


0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 
5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 
10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.

根本原因:

Kubernetes が NVIDIA デバイスプラグインなしで GPU リソースを検出できない
GPU ワークロードのスケジューリングが失敗する

解決策:

以下を実行して NVIDIA GPU プラグインをインストールします。


kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml

検証ステップ:

プラグインのデプロイステータスを確認します。
```
kubectl get pods -n kube-system | grep nvidia-device-plugin
```

GPU リソースが表示されるようになりました。


kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu

モデルのデプロイを再試行する

注記

NVIDIA ドライバーが GPU ノードにインストールされていることを確認します。プラグインのインストールは、クラスターごとに 1 回限りのセットアップです。インストールにはクラスター管理者権限が必要になる場合があります。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

IAM 信頼関係の問題

推論演算子の起動に失敗する