Amazon SageMaker HyperPod 中的無檢查點訓練

Amazon SageMaker HyperPod 上的無檢查點訓練可更快速地從訓練基礎設施故障中復原。下列文件可協助您開始使用 NeMo 支援模型的無檢查點訓練和微調。

無檢查點訓練具有下列先決條件：

開始使用 SageMaker HyperPod 中的 Amazon EKS 支援
安裝訓練運算子。您必須安裝 v1.2.0 或更新版本。

SageMaker HyperPod 上的無檢查點訓練是以 NVIDIA NeMo Framework 使用者指南為基礎。您可以使用預先建立的 SageMaker HyperPod 配方執行無檢查點訓練。如果您熟悉 NeMo，則使用無檢查點訓練配方的程序類似。透過次要變更，您可以開始使用無檢查點訓練功能來訓練模型，讓您快速從訓練錯誤中復原。

下列 HyperPod 配方已預先設定無檢查點訓練最佳化。您可以指定資料路徑做為配方的一部分，並使用相關聯的啟動指令碼來執行訓練（請參閱下面的快速入門指南）：

模型	Method	大小	節點	執行個體	加速器	Recipe	指令碼	教學課程
GPT OSS	完整微調範例	120b	16	p5.48xlarge	GPU H100	連結	連結	連結
GPT OSS	LoRA 範例	120b	2	p5.48xlarge	GPU H100	連結	連結	連結
Llama3	預先訓練範例	70b	16	p5.48xlarge	GPU H100	連結	連結	連結
Llama3	LoRA 範例	70b	2	p5.48xlarge	GPU H100	連結	連結	連結

下列快速入門指南提供使用無檢查點訓練配方的教學課程：

入門範例

如果您想要預先訓練或微調自訂模型，請參閱教學課程 - Amazon SageMaker HyperPod 無檢查點預先訓練或微調自訂模型。

若要進一步了解如何整合特定無檢查點訓練元件，請參閱HyperPod 無檢查點訓練功能。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

自訂 Kubernetes 標籤和污點

訓練教學課程