

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Siklus Hidup dan Label Node
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels"></a>

Amazon SageMaker HyperPod melakukan pemeriksaan kesehatan mendalam pada instans klaster selama pembuatan dan pembaruan HyperPod cluster sebelum partisi GPU dimulai. HyperPod agen pemantauan kesehatan terus memantau status kesehatan dari instance yang dipartisi GPU.

## Status Konfigurasi MIG
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels-states"></a>

Node dengan konfigurasi partisi GPU melewati beberapa status:
+ **Tertunda** - Node sedang dikonfigurasi dengan profil MIG
+ **Mengkonfigurasi** - Operator GPU menerapkan partisi MIG
+ **Sukses** - partisi GPU berhasil diselesaikan
+ **Gagal** - Partisi GPU mengalami kesalahan

## Memantau Status Node
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels-monitoring"></a>

```
# Check node health status
kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable

# Monitor MIG configuration progress
kubectl get node {{NODE_NAME}} -o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}'

# Check for configuration errors
kubectl describe node {{NODE_NAME}} | grep -A 5 "Conditions:"
```

## Label dan Taints Kustom
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels-custom"></a>

Anda dapat mengelola konfigurasi MIG dengan label dan taint khusus untuk memberi label pada partisi GPU Anda dan menerapkannya di seluruh instance:

```
{
  "KubernetesConfig": {
    "Labels": {
      "nvidia.com/mig.config": "all-2g.10gb",
      "task-type": "inference",
      "environment": "production"
    },
    "Taints": [
      {
        "Key": "gpu-task",
        "Value": "mig-enabled",
        "Effect": "NoSchedule"
      }
    ]
  }
}
```