ノードのライフサイクルとラベル

Amazon SageMaker HyperPod は、GPU パーティショニングを開始する前に HyperPod クラスターの作成と更新中に、クラスターインスタンスに対してディープヘルスチェックを実行します。HyperPod ヘルスモニタリングエージェントは、GPU パーティションインスタンスのヘルスステータスを継続的にモニタリングします。

MIG 設定状態

GPU パーティション設定のノードは、いくつかの状態を経ます。

保留中 - ノードは MIG プロファイルで設定されています
設定 - GPU オペレーターが MIG パーティショニングを適用しています
成功 - GPU パーティショニングが正常に完了しました
失敗 - GPU パーティショニングでエラーが発生しました

ノードの状態のモニタリング


# Check node health status
kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable

# Monitor MIG configuration progress
kubectl get node NODE_NAME -o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}'

# Check for configuration errors
kubectl describe node NODE_NAME | grep -A 5 "Conditions:"

カスタムラベルとテイント

カスタムラベルとテイントを使用して MIG 設定を管理し、GPU パーティションにラベルを付け、インスタンス全体に適用できます。


{
  "KubernetesConfig": {
    "Labels": {
      "nvidia.com/mig.config": "all-2g.10gb",
      "task-type": "inference",
      "environment": "production"
    },
    "Taints": [
      {
        "Key": "gpu-task",
        "Value": "mig-enabled",
        "Effect": "NoSchedule"
      }
    ]
  }
}

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

GPU パーティションのセットアップ

タスク送信