Amazon 中的无检查点培训 SageMaker HyperPod - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon 中的无检查点培训 SageMaker HyperPod

Amazon 上的 Checkpoint 无检查点培训 SageMaker HyperPod 可以更快地从培训基础设施故障中恢复。以下文档可帮助您开始使用无检查点训练和微调支持的模型。 NeMo

Checkpointless 培训具有以下先决条件:

无检查点训练建立在 NVIDIA F SageMaker HyperPod ramewor NeMo k 用户指南之上。您可以使用预先 SageMaker HyperPod 创建的食谱进行无检查点训练。如果你熟悉 NeMo,那么使用无检查点训练食谱的过程是相似的。只需稍作改动,您就可以开始使用无检查点训练功能训练模型,这些功能使您能够从训练错误中快速恢复。

以下 HyperPod 配方已预先配置了无检查点训练优化。您可以将数据路径指定为配方的一部分,并使用相关的启动脚本来运行训练(请参阅下面的快速入门指南):

模型 方法 Size Nodes 实例 Accelerator 指南 Script 教程
GPT LOSS 完整的微调示例 120b 16 p5.48xlarge GPU H100 link link link
GPT LOSS Lora-示例 120b 2 p5.48xlarge GPU H100 link link link
Llama3 预训练示例 70b 16 p5.48xlarge GPU H100 link link link
Llama3 Lora-示例 70b 2 p5.48xlarge GPU H100 link link link

以下快速入门指南提供了使用无检查点训练食谱的教程:

入门示例

如果您想对自定义模型进行预训练或微调,请参阅。教程-Amazon SageMaker HyperPod Checkpointless 预训练或微调自定义模型

要详细了解如何整合特定的无检查点训练组件,. HyperPod 无检查点训练功能