使用 HyperPod 訓練運算子

Amazon SageMaker HyperPod 訓練運算子透過跨大型 GPU 叢集有效管理分散式訓練，協助您加速生成式 AI 模型開發。它引入智慧型故障復原、當掉任務偵測和程序層級管理功能，將訓練中斷減至最低並降低成本。與發生故障時需要完整重新啟動任務的傳統訓練基礎設施不同，此運算子會實作手術程序復原，讓您的訓練任務順利執行。

運算子也會使用 HyperPod 的運作狀態監控和可觀測性函數，提供訓練執行的即時可見性，並自動監控損失尖峰和輸送量降低等關鍵指標。您可以透過簡單的 YAML 組態定義復原政策，而無需變更程式碼，可讓您快速回應無法復原的訓練狀態並從中復原。這些監控和復原功能會共同運作，以維持最佳的訓練效能，同時將操作負荷降至最低。

雖然此訓練運算子不需要 Kueue，但您的叢集管理員可以安裝和設定它，以增強任務排程功能。如需詳細資訊，請參閱 Kueue 官方文件。

注意

若要使用訓練運算子，您必須使用最新的 HyperPod AMI 版本。若要升級，請使用 UpdateClusterSoftware API 操作。如果您使用 HyperPod 任務治理，它也必須是最新版本。

支援的版本

HyperPod 訓練運算子僅會使用特定版本的 Kubernetes、Kueue 和 HyperPod。如需相容版本的完整清單，請參閱下列清單。

支援的 Kubernetes 版本 – 1.28、1.29、1.30、1.31、1.32 和 1.33
建議的 Kueue 版本 - v0.12.2 和 v0.12.3
最新的 HyperPod AMI 版本。若要升級至最新的 AMI 版本，請使用 UpdateClusterSoftware API。
PyTorch 2.4.0 – 2.7.1

注意

我們收集某些例行彙總和匿名操作指標，以提供必要的服務可用性。這些指標的建立是完全自動化的，不涉及基礎模型訓練工作負載的人工審核。這些指標與任務操作、資源管理和基本服務功能相關。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

使用 kubectl 執行任務

安裝