本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 HyperPod 训练操作员
Amazon SageMaker HyperPod 训练运营商通过高效管理跨大型 GPU 集群的分布式训练,帮助您加快生成式 AI 模型的开发。它引入了智能故障恢复、挂机作业检测和流程级管理功能,可最大限度地减少培训中断并降低成本。与传统的培训基础设施不同,在发生故障时需要完全重启作业,而该操作员会实施手术过程恢复,以保持您的训练作业顺利进行。
操作员还可以使用 HyperPod运行状况监控和可观察性功能,提供训练执行的实时可见性,并自动监控损失峰值和吞吐量下降等关键指标。您可以通过简单的 YAML 配置来定义恢复策略,无需更改代码,从而可以快速响应不可恢复的训练状态并从中恢复。这些监控和恢复功能协同工作,可保持最佳的训练性能,同时最大限度地减少运营开销。
虽然该培训操作员不需要 Kueue,但您的集群管理员可以安装和配置它以增强作业调度功能。有关更多信息,请参阅 Kueue 的官方文档
注意
要使用培训操作员,必须使用最新的 HyperPod AMI 版本。要升级,请使用 UpdateClusterSoftwareAPI 操作。如果您使用 HyperPod 任务管理,则它还必须是最新版本。
支持的版本
HyperPod 训练操作员只能使用特定版本的 Kubernetes、Kueue 和。 HyperPod有关兼容版本的完整列表,请参阅下面的列表。
-
支持的 Kubernetes 版本 — 1.28、1.29、1.30、1.31 或 1.32
-
最新的 HyperPod AMI 版本。要升级到最新的 AMI 版本,请使用 UpdateClusterSoftwareAPI。
HyperPod 训练操作员与 Kueue 兼容,您的集群管理员可以对其进行配置以增强作业调度功能。有关更多信息,请参阅 Kueue 的官方文档
先决条件
要使用 HyperPod 训练操作员,您必须满足以下先决条件:
-
在您的 HyperPod 集群上安装了最新的 AMI。有关更多信息,请参阅 SageMaker HyperPod 亚马逊 EKS 的 AMI 发布。