HyperPod 托管层检查点

此部分介绍托管层检查点的工作原理，以及它为大规模模型训练带来的优势。

Amazon SageMaker HyperPod 托管层检查点有助于更高效地训练大规模生成式人工智能模型。它使用多个存储层，包括集群的 CPU 内存。此方法可以缩短恢复时间，并最大限度地减少训练进度损失；还能有效利用训练基础设施中未充分利用的内存资源。

托管层检查点支持以更高频率将检查点保存到内存中。此功能会定期将检查点保存到持久性存储中。这有助于在训练过程中同时保障性能与可靠性。

本指南介绍如何在 Amazon EKS HyperPod 集群上使用 PyTorch 框架设置、配置和使用托管层检查点。

托管层检查点的工作原理

托管层检查点使用多层存储方法。CPU 内存用作存储模型检查点的主层。辅助层包括 Amazon S3 等持久性存储选项。

保存检查点时，系统会将其存储在跨集群节点分配的内存空间中。它会在相邻的计算节点间自动复制数据，以提高可靠性。此复制策略可防范单个或多个节点故障，并提供快速访问权限以进行恢复操作。

系统还会根据您的配置定期将检查点保存到持久性存储中。这可确保训练进度的长期持久性。

关键组件包括：

系统通过简单的 API 调用与 PyTorch 训练循环无缝集成。这只需对现有代码进行极少的更改。

托管层检查点为大规模模型训练提供了多项优势：

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

删除集群

设置