View a markdown version of this page

缺少 NVIDIA GPU 外掛程式錯誤 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

缺少 NVIDIA GPU 外掛程式錯誤

即使有可用的 GPU 節點,模型部署仍會因 GPU 不足錯誤而失敗。當 NVIDIA 裝置外掛程式未安裝在 HyperPod 叢集中時,就會發生這種情況。

錯誤訊息:

0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.

根本原因:

  • Kubernetes 無法在沒有 NVIDIA 裝置外掛程式的情況下偵測 GPU 資源

  • 導致 GPU 工作負載的排程失敗

解決方法:

執行下列動作來安裝 NVIDIA GPU 外掛程式:

kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml

驗證步驟:

  1. 檢查外掛程式部署狀態:

    kubectl get pods -n kube-system | grep nvidia-device-plugin
  2. 確認 GPU 資源現在可見:

    kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu
  3. 重試模型部署

注意

確保 NVIDIA 驅動程式安裝在 GPU 節點上。外掛程式安裝是每個叢集的一次性設定。可能需要叢集管理員權限才能安裝。