本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
節點生命週期和標籤
在建立和更新 HyperPod HyperPod 叢集期間,Amazon SageMaker HyperPod 會在 GPU 分割開始之前對叢集執行個體執行深度運作狀態檢查。HyperPod 運作狀態監控代理程式會持續監控 GPU 分割執行個體的運作狀態。
MIG 組態狀態
具有 GPU 分割區組態的節點會經歷數種狀態:
-
待處理 - 正在設定 MIG 設定檔的節點
-
設定 - GPU Operator 正在套用 MIG 分割
-
成功 - GPU 分割已成功完成
-
失敗 - GPU 分割發生錯誤
監控節點狀態
# Check node health status kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable # Monitor MIG configuration progress kubectl get nodeNODE_NAME-o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}' # Check for configuration errors kubectl describe nodeNODE_NAME| grep -A 5 "Conditions:"
自訂標籤和污點
您可以使用自訂標籤和污點來管理 MIG 組態,以標記 GPU 分割區並將其套用至執行個體:
{ "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-2g.10gb", "task-type": "inference", "environment": "production" }, "Taints": [ { "Key": "gpu-task", "Value": "mig-enabled", "Effect": "NoSchedule" } ] } }