

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# NVIDIA GPU プラグインの欠落エラー
<a name="sagemaker-hyperpod-model-deployment-ts-gpu"></a>

使用可能な GPU ノードがあるにもかかわらず、モデルのデプロイは GPU 不足エラーで失敗します。これは、NVIDIA デバイスプラグインが HyperPod クラスターにインストールされていない場合に発生します。

**エラーメッセージ:**

```
0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 
5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 
10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.
```

**根本原因:**
+ Kubernetes が NVIDIA デバイスプラグインなしで GPU リソースを検出できない
+ GPU ワークロードのスケジューリングが失敗する

**解決策**:

以下を実行して NVIDIA GPU プラグインをインストールします。

```
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml
```

**検証ステップ:**

1. プラグインのデプロイステータスを確認します。

   ```
   kubectl get pods -n kube-system | grep nvidia-device-plugin
   ```

1. GPU リソースが表示されるようになりました。

   ```
   kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu
   ```

1. モデルのデプロイを再試行する

**注記**  
NVIDIA ドライバーが GPU ノードにインストールされていることを確認します。プラグインのインストールは、クラスターごとに 1 回限りのセットアップです。インストールにはクラスター管理者権限が必要になる場合があります。