Siklus Hidup dan Label Node - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Siklus Hidup dan Label Node

Amazon SageMaker HyperPod melakukan pemeriksaan kesehatan mendalam pada instans klaster selama pembuatan dan pembaruan HyperPod cluster sebelum partisi GPU dimulai. HyperPod agen pemantauan kesehatan terus memantau status kesehatan dari instance yang dipartisi GPU.

Status Konfigurasi MIG

Node dengan konfigurasi partisi GPU melewati beberapa status:

  • Tertunda - Node sedang dikonfigurasi dengan profil MIG

  • Mengkonfigurasi - Operator GPU menerapkan partisi MIG

  • Sukses - partisi GPU berhasil diselesaikan

  • Gagal - Partisi GPU mengalami kesalahan

Memantau Status Node

# Check node health status kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable # Monitor MIG configuration progress kubectl get node NODE_NAME -o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}' # Check for configuration errors kubectl describe node NODE_NAME | grep -A 5 "Conditions:"

Label dan Taints Kustom

Anda dapat mengelola konfigurasi MIG dengan label dan taint khusus untuk memberi label pada partisi GPU Anda dan menerapkannya di seluruh instance:

{ "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-2g.10gb", "task-type": "inference", "environment": "production" }, "Taints": [ { "Key": "gpu-task", "Value": "mig-enabled", "Effect": "NoSchedule" } ] } }