使用 HyperPod 訓練運算子 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 HyperPod 訓練運算子

Amazon SageMaker HyperPod 訓練運算子透過跨大型 GPU 叢集有效管理分散式訓練,協助您加速生成式 AI 模型開發。它引入智慧型故障復原、當掉任務偵測和程序層級管理功能,將訓練中斷減至最低並降低成本。與發生故障時需要完整重新啟動任務的傳統訓練基礎設施不同,此運算子會實作手術程序復原,讓您的訓練任務順利執行。

運算子也會使用 HyperPod 的運作狀態監控和可觀測性函數,提供訓練執行的即時可見性,並自動監控損失尖峰和輸送量降低等關鍵指標。您可以透過簡單的 YAML 組態定義復原政策,而無需變更程式碼,可讓您快速回應無法復原的訓練狀態並從中復原。這些監控和復原功能會共同運作,以維持最佳的訓練效能,同時將操作負荷降至最低。

雖然此訓練運算子不需要 Kueue,但您的叢集管理員可以安裝和設定它,以增強任務排程功能。如需詳細資訊,請參閱 Kueue 官方文件

注意

若要使用訓練運算子,您必須使用最新的 HyperPod AMI 版本。若要升級,請使用 UpdateClusterSoftware API 操作。如果您使用 HyperPod 任務治理,它也必須是最新版本。

支援的版本

HyperPod 訓練運算子僅會使用特定版本的 Kubernetes、Kueue 和 HyperPod。如需相容版本的完整清單,請參閱下列清單。

注意

我們收集某些例行彙總和匿名操作指標,以提供必要的服務可用性。這些指標的建立是完全自動化的,不涉及基礎模型訓練工作負載的人工審核。這些指標與任務操作、資源管理和基本服務功能相關。