

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon SageMaker HyperPod 中的無檢查點訓練
<a name="sagemaker-eks-checkpointless"></a>

Amazon SageMaker HyperPod 上的無檢查點訓練可更快速地從訓練基礎設施故障中復原。下列文件可協助您開始使用 NeMo 支援模型的無檢查點訓練和微調。

無檢查點訓練具有下列先決條件：
+ [開始使用 SageMaker HyperPod 中的 Amazon EKS 支援](sagemaker-hyperpod-eks-prerequisites.md)
+ [安裝訓練運算子](sagemaker-eks-operator-install.md)。 您必須安裝 v1.2.0 或更新版本。

 SageMaker HyperPod 上的無檢查點訓練是以 [ NVIDIA NeMo Framework 使用者指南](https://docs.nvidia.com/nemo-framework/user-guide/latest/nemotoolkit/core/exp_manager.html#experiment-manager)為基礎。您可以使用預先建立的 SageMaker HyperPod 配方執行無檢查點訓練。如果您熟悉 NeMo，則使用無檢查點訓練配方的程序類似。透過次要變更，您可以開始使用無檢查點訓練功能來訓練模型，讓您快速從訓練錯誤中復原。

下列 HyperPod 配方已預先設定無檢查點訓練最佳化。您可以指定資料路徑做為配方的一部分，並使用相關聯的啟動指令碼來執行訓練 （請參閱下面的快速入門指南）：


| 模型 | Method | 大小 | 節點 | 執行個體 | 加速器 | Recipe | 指令碼 | 教學課程 | 
| --- | --- | --- | --- | --- | --- | --- | --- | --- | 
| GPT OSS | 完整微調範例 | 120b | 16 | p5.48xlarge | GPU H100 | [連結](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/gpt_oss/checkpointless_gpt_oss_120b_full_fine_tuning.yaml) | [連結](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/gpt_oss/run_checkpointless_gpt_oss_120b_full_fine_tuning.sh) | [連結](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-finetune.html) | 
| GPT OSS | LoRA 範例 | 120b | 2 | p5.48xlarge | GPU H100 | [連結](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/gpt_oss/checkpointless_gpt_oss_120b_lora.yaml) | [連結](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/gpt_oss/run_checkpointless_gpt_oss_120b_lora.sh) | [連結](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-peft.html) | 
| Llama3 | 預先訓練範例 | 70b | 16 | p5.48xlarge | GPU H100 | [連結](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/training/llama/checkpointless_llama3_70b_pretrain.yaml) | [連結](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/llama/run_checkpointless_llama3_70b_pretrain.sh) | [連結](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-pretraining-llama3.html) | 
| Llama3 | LoRA 範例 | 70b | 2 | p5.48xlarge | GPU H100 | [連結](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/llama/checkpointless_llama3_70b_lora.yaml) | [連結](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/llama/run_checkpointless_llama3_70b_lora.sh) | [連結](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-peft-llama.html) | 

下列快速入門指南提供使用無檢查點訓練配方的教學課程：

**入門範例**
+ [教學課程 - Amazon SageMaker HyperPod 無檢查點完整微調 GPT OSS 120b](sagemaker-eks-checkpointless-recipes-finetune.md)
+ [教學課程 - Amazon SageMaker HyperPod 無檢查點 PEFT-LoRA GPT OSS 120b](sagemaker-eks-checkpointless-recipes-peft.md)
+ [教學課程 - Amazon SageMaker HyperPod 無檢查點預先訓練 Llama 3 70b](sagemaker-eks-checkpointless-recipes-pretraining-llama3.md)
+ [教學課程 - Amazon SageMaker HyperPod 無檢查點 PEFT-LoRA Llama 3 70b](sagemaker-eks-checkpointless-recipes-peft-llama.md)

如果您想要預先訓練或微調自訂模型，請參閱 [教學課程 - Amazon SageMaker HyperPod 無檢查點預先訓練或微調自訂模型](sagemaker-eks-checkpointless-recipes-custom.md)。

若要進一步了解如何整合特定無檢查點訓練元件，請參閱[HyperPod 無檢查點訓練功能](sagemaker-eks-checkpointless-features.md)。