翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。 # ノードのライフサイクルとラベル Amazon SageMaker HyperPod は、GPU パーティショニングを開始する前に HyperPod クラスターの作成と更新中に、クラスターインスタンスに対してディープヘルスチェックを実行します。HyperPod ヘルスモニタリングエージェントは、GPU パーティションインスタンスのヘルスステータスを継続的にモニタリングします。 ## MIG 設定状態 GPU パーティション設定のノードには、いくつかの状態があります。 + **保留中** - ノードが MIG プロファイルで設定されている + **設定** - GPU オペレーターが MIG パーティショニングを適用しています + **Success** - GPU パーティショニングが正常に完了しました + **失敗** - GPU パーティショニングでエラーが発生しました ## ノードの状態のモニタリング ``` # Check node health status kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable # Monitor MIG configuration progress kubectl get node {{NODE_NAME}} -o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}' # Check for configuration errors kubectl describe node {{NODE_NAME}} | grep -A 5 "Conditions:" ``` ## カスタムラベルとテイントカスタムラベルとテイントを使用して MIG 設定を管理し、GPU パーティションにラベルを付け、インスタンス全体に適用できます。 ``` { "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-2g.10gb", "task-type": "inference", "environment": "production" }, "Taints": [ { "Key": "gpu-task", "Value": "mig-enabled", "Effect": "NoSchedule" } ] } } ```