本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker HyperPod 中的無檢查點訓練
Amazon SageMaker HyperPod 上的無檢查點訓練可更快速地從訓練基礎設施故障中復原。下列文件可協助您開始使用 NeMo 支援模型的無檢查點訓練和微調。
無檢查點訓練有下列先決條件:
-
安裝訓練運算子。 您必須安裝 v1.2.0 或更新版本。
SageMaker HyperPod 上的無檢查點訓練是以 NVIDIA NeMo Framework 使用者指南
下列 HyperPod 配方已預先設定無檢查點訓練最佳化。您可以指定資料路徑做為配方的一部分,並使用相關聯的啟動指令碼來執行訓練 (請參閱下面的快速入門指南):
下列快速入門指南提供使用無檢查點訓練配方的教學課程:
入門範例
如果您想要預先訓練或微調自訂模型,請參閱 教學課程 - Amazon SageMaker HyperPod 無檢查點預先訓練或微調自訂模型。
若要進一步了解如何整合特定無檢查點訓練元件,請參閱HyperPod 無檢查點訓練功能。