View a markdown version of this page

Erro ausente do plug-in da GPU NVIDIA - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Erro ausente do plug-in da GPU NVIDIA

A implantação do modelo falha com erro de insuficiência de GPU, apesar de ter nós de GPU disponíveis. Isso ocorre quando o plug-in do dispositivo NVIDIA não está instalado no HyperPod cluster.

Mensagem de erro:

0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.

Causa raiz:

  • O Kubernetes não consegue detectar recursos de GPU sem o plug-in de dispositivo NVIDIA

  • Resulta em falhas de agendamento para cargas de trabalho da GPU

Resolução:

Instale o plug-in da GPU NVIDIA executando:

kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml

Etapas de verificação:

  1. Verifique o status de implantação do plug-in:

    kubectl get pods -n kube-system | grep nvidia-device-plugin
  2. Verifique se os recursos da GPU agora estão visíveis:

    kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu
  3. Repetir a implantação do modelo

nota

Certifique-se de que os drivers NVIDIA estejam instalados nos nós da GPU. A instalação do plug-in é uma configuração única por cluster. Pode exigir privilégios de administrador do cluster para instalar.