翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ノードを手動で隔離、置き換え、または再起動する
Amazon EKS とオーケストレーションされた SageMaker HyperPod クラスターの障害のあるノードを手動で隔離、置き換え、再起動する方法について説明します。
ノードを隔離し、トレーニングポッドを強制的に削除するには
kubectl cordon<node-name>
隔離後、ポッドを強制的に取り出します。これは、ポッドが 30 分以上終了状態のままになっているか、kubectl describe pod のイベントで「ノードの準備ができていません」と表示される場合に便利です。
kubectl delete pods<pod-name>--grace-period=0 --force
SageMaker HyperPod には、手動ノード復旧のための 2 つの方法があります。推奨されるアプローチは、SageMaker HyperPod Reboot and Replace APIs を使用することです。これにより、すべてのオーケストレーターで動作するより高速で透過的な復旧プロセスが提供されます。または、kubectl コマンドを使用して、再起動および置換オペレーションのためにノードにラベルを付けることもできます。どちらの方法でも、同じ SageMaker HyperPod 復旧プロセスがアクティブ化されます。
Reboot API を使用してノードを再起動するには
ノードを再起動するには、BatchRebootClusterNodes API を使用できます。
を使用してクラスターの 2 つのインスタンスで再起動オペレーションを実行する例を次に示しますAWS Command Line Interface。
aws sagemaker-dev batch-reboot-cluster-nodes \ --cluster-name arn:aws:sagemaker:ap-northeast-1:123456789:cluster/test-cluster \ --node-ids i-abc123 i-def456
Replace API を使用してノードを置き換えるには
ノードを置き換えるには、次のように BatchReplaceClusterNodes API を使用できます。
を使用してクラスターの 2 つのインスタンスで置換オペレーションを実行する例を次に示しますAWS Command Line Interface。
aws sagemaker-dev batch-replace-cluster-nodes \ --cluster-name arn:aws:sagemaker:ap-northeast-1:123456789:cluster/test-cluster \ --node-ids i-abc123 i-def456
kubectl を使用してノードを置き換えるには
sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement で置き換えて SageMaker HyperPod 自動ノード復旧 をトリガーするよう、ノードにラベルを付けます。クラスターの作成または更新中に自動ノード復旧をアクティブ化する必要もあることに注意してください。
kubectl label nodes<node-name>\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
kubectl を使用してノードを再起動するには
sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot で再起動して SageMaker HyperPod 自動ノード復旧 をトリガーするよう、ノードにラベルを付けます。クラスターの作成または更新中に自動ノード復旧をアクティブ化する必要もあることに注意してください。
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
ラベルUnschedulablePendingReplacementまたは UnschedulablePendingRebootが適用されると、数分でノードが終了または再起動されるのを確認できます。