Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Kesalahan plugin GPU NVIDIA tidak ada
Penerapan model gagal dengan kesalahan ketidakcukupan GPU meskipun memiliki node GPU yang tersedia. Ini terjadi ketika plugin perangkat NVIDIA tidak diinstal di HyperPod cluster.
Pesan kesalahan:
0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.
Akar penyebab:
-
Kubernetes tidak dapat mendeteksi sumber daya GPU tanpa plugin perangkat NVIDIA
-
Menghasilkan kegagalan penjadwalan untuk beban kerja GPU
Resolusi:
Instal plugin NVIDIA GPU dengan menjalankan:
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml
Langkah verifikasi:
-
Periksa status penyebaran plugin:
kubectl get pods -n kube-system | grep nvidia-device-plugin -
Verifikasi sumber daya GPU sekarang terlihat:
kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu -
Coba lagi penerapan model
catatan
Pastikan driver NVIDIA diinstal pada node GPU. Instalasi plugin adalah pengaturan satu kali per cluster. Mungkin memerlukan hak istimewa admin cluster untuk menginstal.