

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Erro ausente do plug-in da GPU NVIDIA
<a name="sagemaker-hyperpod-model-deployment-ts-gpu"></a>

A implantação do modelo falha com erro de insuficiência de GPU, apesar de ter nós de GPU disponíveis. Isso ocorre quando o plug-in do dispositivo NVIDIA não está instalado no HyperPod cluster.

**Mensagem de erro:**

```
0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 
5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 
10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.
```

**Causa raiz:**
+ O Kubernetes não consegue detectar recursos de GPU sem o plug-in de dispositivo NVIDIA
+ Resulta em falhas de agendamento para cargas de trabalho da GPU

**Resolução:**

Instale o plug-in da GPU NVIDIA executando:

```
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml
```

**Etapas de verificação:**

1. Verifique o status de implantação do plug-in:

   ```
   kubectl get pods -n kube-system | grep nvidia-device-plugin
   ```

1. Verifique se os recursos da GPU agora estão visíveis:

   ```
   kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu
   ```

1. Repetir a implantação do modelo

**nota**  
Certifique-se de que os drivers NVIDIA estejam instalados nos nós da GPU. A instalação do plug-in é uma configuração única por cluster. Pode exigir privilégios de administrador do cluster para instalar.