SageMaker HyperPod 的彈性相關 Kubernetes 標籤 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker HyperPod 的彈性相關 Kubernetes 標籤

標籤是連接到 Kubernetes 物件的金鑰/值對。SageMaker HyperPod 會為其提供的運作狀態檢查引入下列標籤。

節點運作狀態標籤

node-health-status 標籤代表節點運作狀態的狀態,並用作運作狀態良好節點中節點選取器篩選條件的一部分。

標籤 Description
sagemaker.amazonaws.com/node-health-status: Schedulable 節點已通過基本運作狀態檢查,可用於執行中的工作負載。此運作狀態檢查與 Slurm 叢集目前可用的 SageMaker HyperPod 彈性功能相同。
sagemaker.amazonaws.com/node-health-status: Unschedulable 節點正在執行深度運作狀態檢查,不適用於執行中的工作負載。
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement 節點未通過深層運作狀態檢查或運作狀態監控代理程式檢查,需要替換。如果啟用了自動節點復原,SageMaker HyperPod 將自動取代節點。
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot 節點未通過深層運作狀態檢查或運作狀態監控代理程式檢查,需要重新啟動。如果啟用了自動節點復原,SageMaker HyperPod 將自動啟動節點。

深層運作狀態檢查標籤

deep-health-check-status 標籤代表特定節點上深層運作狀態檢查的進度。有助於 Kubernetes 使用者快速篩選整體深層運作狀態檢查的進度。

標籤 Description
sagemaker.amazonaws.com/deep-health-check-status: InProgress 節點正在執行深度運作狀態檢查,不適用於執行中的工作負載。
sagemaker.amazonaws.com/deep-health-check-status: Passed 節點已成功完成深層運作狀態檢查和運作狀態監控代理程式檢查,並可用於執行中的工作負載。
sagemaker.amazonaws.com/deep-health-check-status: Failed 節點未通過深層運作狀態檢查或運作狀態監控代理程式檢查,需要重新啟動或替換。如果啟用了自動節點復原,SageMaker HyperPod 將自動啟動或取代節點。

故障類型和原因標籤

以下說明 fault-typefault-reason標籤。

  • fault-type 標籤代表運作狀態檢查失敗時的高階故障類別。這些會填入在深層運作狀態和運作狀態監控代理程式檢查期間識別的失敗。

  • fault-reason 標籤代表與 fault-type 相關聯的詳細故障原因。

SageMaker HyperPod 的標記方式

下列主題涵蓋了如何根據各種案例完成標記。

節點新增至深層運作狀態檢查組態停用的 SageMaker HyperPod 叢集時

將新節點新增至叢集時,如果執行個體群組未啟用深度運作狀態檢查,SageMaker HyperPod 會執行與 Slurm 叢集目前可用的 SageMaker HyperPod 運作狀態檢查相同的運作狀態檢查

如果運作狀態檢查通過,節點將以下列標籤標示。

sagemaker.amazonaws.com/node-health-status: Schedulable

如果運作狀態檢查未通過,則會終止並取代節點。此行為與 SageMaker HyperPod 運作狀態檢查對 Slurm 叢集的運作方式相同。

節點新增至深層運作狀態檢查組態啟用的 SageMaker HyperPod 叢集時

當新節點新增至 SageMaker HyperPod 叢集時,以及如果執行個體群組已啟用深層運作狀態檢查測試,HyperPod 會先污染該節點,並在節點上啟動約 2 小時的深層運作狀態檢查/壓力測試。深層運作狀態檢查後,節點標籤有 3 個可能輸出。

  1. 當深層運作狀態檢查測試通過時

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. 當深層運作狀態檢查測試失敗,且需要取代執行個體時

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. 當深層運作狀態檢查測試失敗,且執行個體需要重新啟動才能重新執行深層運作狀態檢查時

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

如果執行個體未通過深層運作狀態檢查測試,則會一律取代該執行個體。如果深層運作狀態檢查測試成功,則會移除節點上的污點。

當節點上有任何運算失敗時

SageMaker HyperPod 運作狀態監控代理程式也會持續監控每個節點的運作狀態。當它偵測到任何失敗 (例如 GPU 失敗和驅動程式當機) 時,代理程式會以下列其中一個標籤來標記該節點。

  1. 當節點運作狀態不佳且需要取代時

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. 當節點運作狀態不佳且需要重新啟動時

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

運作狀態監控代理程式也會在偵測到任何節點運作狀態問題時污染節點。