

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# ノードのライフサイクルとラベル
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels"></a>

Amazon SageMaker HyperPod は、GPU パーティショニングを開始する前に HyperPod クラスターの作成と更新中に、クラスターインスタンスに対してディープヘルスチェックを実行します。HyperPod ヘルスモニタリングエージェントは、GPU パーティションインスタンスのヘルスステータスを継続的にモニタリングします。

## MIG 設定状態
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels-states"></a>

GPU パーティション設定のノードには、いくつかの状態があります。
+ **保留中** - ノードが MIG プロファイルで設定されている
+ **設定** - GPU オペレーターが MIG パーティショニングを適用しています
+ **Success** - GPU パーティショニングが正常に完了しました
+ **失敗** - GPU パーティショニングでエラーが発生しました

## ノードの状態のモニタリング
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels-monitoring"></a>

```
# Check node health status
kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable

# Monitor MIG configuration progress
kubectl get node {{NODE_NAME}} -o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}'

# Check for configuration errors
kubectl describe node {{NODE_NAME}} | grep -A 5 "Conditions:"
```

## カスタムラベルとテイント
<a name="sagemaker-hyperpod-eks-gpu-partitioning-labels-custom"></a>

カスタムラベルとテイントを使用して MIG 設定を管理し、GPU パーティションにラベルを付け、インスタンス全体に適用できます。

```
{
  "KubernetesConfig": {
    "Labels": {
      "nvidia.com/mig.config": "all-2g.10gb",
      "task-type": "inference",
      "environment": "production"
    },
    "Taints": [
      {
        "Key": "gpu-task",
        "Value": "mig-enabled",
        "Effect": "NoSchedule"
      }
    ]
  }
}
```