Erro ausente do plug-in da GPU NVIDIA

A implantação do modelo falha com erro de insuficiência de GPU, apesar de ter nós de GPU disponíveis. Isso ocorre quando o plug-in do dispositivo NVIDIA não está instalado no HyperPod cluster.

Mensagem de erro:


0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 
5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 
10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.

Causa raiz:

O Kubernetes não consegue detectar recursos de GPU sem o plug-in de dispositivo NVIDIA
Resulta em falhas de agendamento para cargas de trabalho da GPU

Resolução:

Instale o plug-in da GPU NVIDIA executando:


kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml

Etapas de verificação:

Verifique o status de implantação do plug-in:


kubectl get pods -n kube-system | grep nvidia-device-plugin

Verifique se os recursos da GPU agora estão visíveis:


kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu

Repetir a implantação do modelo

nota

Certifique-se de que os drivers NVIDIA estejam instalados nos nós da GPU. A instalação do plug-in é uma configuração única por cluster. Pode exigir privilégios de administrador do cluster para instalar.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Problema de relacionamento de confiança do IAM

O operador de inferência falha ao iniciar