缺少 NVIDIA GPU 外掛程式錯誤

即使有可用的 GPU 節點，模型部署仍會因 GPU 不足錯誤而失敗。當 NVIDIA 裝置外掛程式未安裝在 HyperPod 叢集中時，就會發生這種情況。

錯誤訊息：


0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 
5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 
10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.

根本原因：

Kubernetes 無法在沒有 NVIDIA 裝置外掛程式的情況下偵測 GPU 資源
導致 GPU 工作負載排程失敗

解決方法：

執行下列動作來安裝 NVIDIA GPU 外掛程式：


kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml

驗證步驟：

檢查外掛程式部署狀態：


kubectl get pods -n kube-system | grep nvidia-device-plugin

確認 GPU 資源現在可見：


kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu

重試模型部署

注意

確保 NVIDIA 驅動程式安裝在 GPU 節點上。外掛程式安裝是每個叢集的一次性設定。可能需要叢集管理員權限才能安裝。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

IAM 信任關係問題

推論運算子無法啟動