Amazon SageMaker HyperPod 中的無檢查點訓練 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon SageMaker HyperPod 中的無檢查點訓練

Amazon SageMaker HyperPod 上的無檢查點訓練可更快速地從訓練基礎設施故障中復原。下列文件可協助您開始使用 NeMo 支援模型的無檢查點訓練和微調。

無檢查點訓練有下列先決條件:

SageMaker HyperPod 上的無檢查點訓練是以 NVIDIA NeMo Framework 使用者指南為基礎。您可以使用預先建立的 SageMaker HyperPod 配方執行無檢查點訓練。如果您熟悉 NeMo,則使用無檢查點訓練配方的程序類似。透過次要變更,您可以開始使用無檢查點訓練功能來訓練模型,讓您快速從訓練錯誤中復原。

下列 HyperPod 配方已預先設定無檢查點訓練最佳化。您可以指定資料路徑做為配方的一部分,並使用相關聯的啟動指令碼來執行訓練 (請參閱下面的快速入門指南):

模型 Method 大小 節點 執行個體 加速器 Recipe 指令碼 教學課程
GPT 作業系統 完整微調範例 120b 16 p5.48xlarge GPU H100 連結 連結 連結
GPT 作業系統 LoRA 範例 120b 2 p5.48xlarge GPU H100 連結 連結 連結
Llama3 預先訓練範例 70b 16 p5.48xlarge GPU H100 連結 連結 連結
Llama3 LoRA 範例 70b 2 p5.48xlarge GPU H100 連結 連結 連結

下列快速入門指南提供使用無檢查點訓練配方的教學課程:

入門範例

如果您想要預先訓練或微調自訂模型,請參閱 教學課程 - Amazon SageMaker HyperPod 無檢查點預先訓練或微調自訂模型

若要進一步了解如何整合特定無檢查點訓練元件,請參閱HyperPod 無檢查點訓練功能