本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
缺少 NVIDIA GPU 外掛程式錯誤
即使有可用的 GPU 節點,模型部署仍會因 GPU 不足錯誤而失敗。當 NVIDIA 裝置外掛程式未安裝在 HyperPod 叢集中時,就會發生這種情況。
錯誤訊息:
0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.
根本原因:
-
Kubernetes 無法在沒有 NVIDIA 裝置外掛程式的情況下偵測 GPU 資源
-
導致 GPU 工作負載的排程失敗
解決方法:
執行下列動作來安裝 NVIDIA GPU 外掛程式:
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml
驗證步驟:
-
檢查外掛程式部署狀態:
kubectl get pods -n kube-system | grep nvidia-device-plugin -
確認 GPU 資源現在可見:
kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu -
重試模型部署
注意
確保 NVIDIA 驅動程式安裝在 GPU 節點上。外掛程式安裝是每個叢集的一次性設定。可能需要叢集管理員權限才能安裝。