手動隔離、取代或重新啟動節點
了解如何在與 Amazon EKS 協作的 SageMaker HyperPod 叢集中手動隔離、取代和重新啟動故障的節點。
隔離節點並強制刪除訓練 Pod
kubectl cordon<node-name>
隔離後,強制退出 Pod。當您看到 Pod 卡在終止狀態超過 30 分鐘,或 kubectl describe pod 在事件中顯示「節點尚未備妥」時,此操作很有用
kubectl delete pods<pod-name>--grace-period=0 --force
取代節點
使用 sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement 標記要取代的節點,這會觸發 SageMaker HyperPod 自動節點復原。請注意,您也需要在叢集建立或更新期間啟用自動節點復原。
kubectl label nodes<node-name>\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
重新啟動節點
使用 sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot 標記要重新啟動的節點,這會觸發 SageMaker HyperPod 自動節點復原。請注意,您也需要在叢集建立或更新期間啟用自動節點復原。
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
套用標籤 UnschedulablePendingReplacement 或 UnschedulablePendingReboot 後,您應該能夠看到節點在幾分鐘內終止或重新啟動。