As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Erro ausente do plug-in da GPU NVIDIA
A implantação do modelo falha com erro de insuficiência de GPU, apesar de ter nós de GPU disponíveis. Isso ocorre quando o plug-in do dispositivo NVIDIA não está instalado no HyperPod cluster.
Mensagem de erro:
0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.
Causa raiz:
-
O Kubernetes não consegue detectar recursos de GPU sem o plug-in de dispositivo NVIDIA
-
Resulta em falhas de agendamento para cargas de trabalho da GPU
Resolução:
Instale o plug-in da GPU NVIDIA executando:
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml
Etapas de verificação:
-
Verifique o status de implantação do plug-in:
kubectl get pods -n kube-system | grep nvidia-device-plugin -
Verifique se os recursos da GPU agora estão visíveis:
kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu -
Repetir a implantação do modelo
nota
Certifique-se de que os drivers NVIDIA estejam instalados nos nós da GPU. A instalação do plug-in é uma configuração única por cluster. Pode exigir privilégios de administrador do cluster para instalar.