翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
NVIDIA GPU プラグインの欠落エラー
使用可能な GPU ノードがあるにもかかわらず、モデルのデプロイは GPU 不足エラーで失敗します。これは、NVIDIA デバイスプラグインが HyperPod クラスターにインストールされていない場合に発生します。
エラーメッセージ:
0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.
根本原因:
-
Kubernetes が NVIDIA デバイスプラグインなしで GPU リソースを検出できない
-
GPU ワークロードのスケジューリングが失敗する
解決策:
以下を実行して NVIDIA GPU プラグインをインストールします。
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml
検証ステップ:
-
プラグインのデプロイステータスを確認します。
kubectl get pods -n kube-system | grep nvidia-device-plugin -
GPU リソースが表示されるようになりました。
kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu -
モデルのデプロイを再試行する
注記
NVIDIA ドライバーが GPU ノードにインストールされていることを確認します。プラグインのインストールは、クラスターごとに 1 回限りのセットアップです。インストールにはクラスター管理者権限が必要になる場合があります。