

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 缺少 NVIDIA GPU 外掛程式錯誤
<a name="sagemaker-hyperpod-model-deployment-ts-gpu"></a>

即使有可用的 GPU 節點，模型部署仍會因 GPU 不足錯誤而失敗。當 NVIDIA 裝置外掛程式未安裝在 HyperPod 叢集中時，就會發生這種情況。

**錯誤訊息：**

```
0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 
5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 
10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.
```

**根本原因：**
+ Kubernetes 無法在沒有 NVIDIA 裝置外掛程式的情況下偵測 GPU 資源
+ 導致 GPU 工作負載的排程失敗

**解決方法：**

執行下列動作來安裝 NVIDIA GPU 外掛程式：

```
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml
```

**驗證步驟：**

1. 檢查外掛程式部署狀態：

   ```
   kubectl get pods -n kube-system | grep nvidia-device-plugin
   ```

1. 確認 GPU 資源現在可見：

   ```
   kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu
   ```

1. 重試模型部署

**注意**  
確保 NVIDIA 驅動程式安裝在 GPU 節點上。外掛程式安裝是每個叢集的一次性設定。可能需要叢集管理員權限才能安裝。