

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Errore mancante del plug-in GPU NVIDIA
<a name="sagemaker-hyperpod-model-deployment-ts-gpu"></a>

L'implementazione del modello non riesce a causa di un errore di insufficienza della GPU nonostante siano disponibili nodi GPU. Ciò si verifica quando il plug-in del dispositivo NVIDIA non è installato nel cluster. HyperPod

**Messaggio di errore:**

```
0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 
5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 
10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.
```

**Causa principale:**
+ Kubernetes non è in grado di rilevare le risorse della GPU senza il plug-in del dispositivo NVIDIA
+ Comporta errori di pianificazione per i carichi di lavoro della GPU

**Risoluzione:**

Installa il plug-in GPU NVIDIA eseguendo:

```
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml
```

**Passaggi di verifica:**

1. Controlla lo stato di distribuzione del plugin:

   ```
   kubectl get pods -n kube-system | grep nvidia-device-plugin
   ```

1. Verifica che le risorse della GPU siano ora visibili:

   ```
   kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu
   ```

1. Riprova la distribuzione del modello

**Nota**  
Assicurati che i driver NVIDIA siano installati sui nodi GPU. L'installazione del plugin è una configurazione unica per cluster. Potrebbe richiedere i privilegi di amministratore del cluster per l'installazione.