

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 節點生命週期和標籤
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels"></a>

在建立和更新 HyperPod HyperPod 叢集期間，Amazon SageMaker HyperPod 會在 GPU 分割開始之前對叢集執行個體執行深度運作狀態檢查。HyperPod 運作狀態監控代理程式會持續監控 GPU 分割執行個體的運作狀態。

## MIG 組態狀態
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels-states"></a>

具有 GPU 分割區組態的節點會經歷數種狀態：
+ **待處理** - 正在設定 MIG 設定檔的節點
+ **設定** - GPU Operator 正在套用 MIG 分割
+ **成功** - GPU 分割已成功完成
+ **失敗** - GPU 分割發生錯誤

## 監控節點狀態
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels-monitoring"></a>

```
# Check node health status
kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable

# Monitor MIG configuration progress
kubectl get node NODE_NAME -o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}'

# Check for configuration errors
kubectl describe node NODE_NAME | grep -A 5 "Conditions:"
```

## 自訂標籤和標記
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels-custom"></a>

您可以使用自訂標籤和污點來管理 MIG 組態，以標記 GPU 分割區並將其套用至執行個體：

```
{
  "KubernetesConfig": {
    "Labels": {
      "nvidia.com/mig.config": "all-2g.10gb",
      "task-type": "inference",
      "environment": "production"
    },
    "Taints": [
      {
        "Key": "gpu-task",
        "Value": "mig-enabled",
        "Effect": "NoSchedule"
      }
    ]
  }
}
```