Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Siklus Hidup dan Label Node
Amazon SageMaker HyperPod melakukan pemeriksaan kesehatan mendalam pada instans klaster selama pembuatan dan pembaruan HyperPod cluster sebelum partisi GPU dimulai. HyperPod agen pemantauan kesehatan terus memantau status kesehatan dari instance yang dipartisi GPU.
Status Konfigurasi MIG
Node dengan konfigurasi partisi GPU melewati beberapa status:
-
Tertunda - Node sedang dikonfigurasi dengan profil MIG
-
Mengkonfigurasi - Operator GPU menerapkan partisi MIG
-
Sukses - partisi GPU berhasil diselesaikan
-
Gagal - Partisi GPU mengalami kesalahan
Memantau Status Node
# Check node health status kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable # Monitor MIG configuration progress kubectl get nodeNODE_NAME-o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}' # Check for configuration errors kubectl describe nodeNODE_NAME| grep -A 5 "Conditions:"
Label dan Taints Kustom
Anda dapat mengelola konfigurasi MIG dengan label dan taint khusus untuk memberi label pada partisi GPU Anda dan menerapkannya di seluruh instance:
{ "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-2g.10gb", "task-type": "inference", "environment": "production" }, "Taints": [ { "Key": "gpu-task", "Value": "mig-enabled", "Effect": "NoSchedule" } ] } }