View a markdown version of this page

Kesalahan plugin GPU NVIDIA tidak ada - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kesalahan plugin GPU NVIDIA tidak ada

Penerapan model gagal dengan kesalahan ketidakcukupan GPU meskipun memiliki node GPU yang tersedia. Ini terjadi ketika plugin perangkat NVIDIA tidak diinstal di HyperPod cluster.

Pesan kesalahan:

0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.

Akar penyebab:

  • Kubernetes tidak dapat mendeteksi sumber daya GPU tanpa plugin perangkat NVIDIA

  • Menghasilkan kegagalan penjadwalan untuk beban kerja GPU

Resolusi:

Instal plugin NVIDIA GPU dengan menjalankan:

kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml

Langkah verifikasi:

  1. Periksa status penyebaran plugin:

    kubectl get pods -n kube-system | grep nvidia-device-plugin
  2. Verifikasi sumber daya GPU sekarang terlihat:

    kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu
  3. Coba lagi penerapan model

catatan

Pastikan driver NVIDIA diinstal pada node GPU. Instalasi plugin adalah pengaturan satu kali per cluster. Mungkin memerlukan hak istimewa admin cluster untuk menginstal.