

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用 HyperPod 训练操作员
<a name="sagemaker-eks-operator"></a>

 Amazon SageMaker HyperPod 训练运营商通过高效管理跨大型 GPU 集群的分布式训练，帮助您加快生成式 AI 模型的开发。它引入了智能故障恢复、挂起作业检测和进程级管理功能，可最大限度地减少训练中断并降低成本。与发生故障时需要完全重启作业的传统训练基础设施不同，此操作符会精确执行流程恢复，以保持训练作业顺利运行。

 操作员还可以使用 HyperPod运行状况监控和可观察性功能，提供训练执行的实时可见性，并自动监控损失峰值和吞吐量下降等关键指标。无需更改代码，即可通过简单的 YAML 配置定义恢复策略，从而快速响应无法恢复的训练状态并协助完成恢复。这些监控和恢复功能协同工作，可以保持最佳训练性能，同时最大限度地减少运营开销。

 虽然此训练操作符不需要 Kueue，但您的集群管理员可以安装和配置它以增强作业调度能力。有关更多信息，请参阅 [Kueue 的官方文档](https://kueue.sigs.k8s.io/docs/overview/)。

**注意**  
要使用培训操作员，必须使用最新的 [ HyperPod AMI 版本](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-release-ami-eks.html)。要升级，请使用 [ UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)API 操作。如果您使用[ HyperPod 任务管理](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-operate-console-ui-governance.html)，则它还必须是最新版本。

## 支持的版本
<a name="sagemaker-eks-operator-supported-versions"></a>

 HyperPod 训练操作员只能使用特定版本的 Kubernetes、Kueue 和。 HyperPod有关可兼容版本的完整列表，请参阅下面的列表。
+ 支持的 Kubernetes 版本 — 1.28、1.29、1.30、1.31、1.32 和 1.33
+ 推荐的 Kueue 版本 – [ v.0.12.2](https://github.com/kubernetes-sigs/kueue/releases/tag/v0.12.2) 和 [v.0.12.3](https://github.com/kubernetes-sigs/kueue/releases/tag/v0.12.3)
+ 最新的 HyperPod AMI 版本。要升级到最新的 AMI 版本，请使用 [ UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)API。
+ [PyTorch 2.4.0 — 2.7.1](https://github.com/pytorch/pytorch/releases)

**注意**  
我们收集某些常规汇总和匿名的运营指标，以提供基本的服务可用性。这些指标的创建是完全自动化的，不需要对底层模型训练工作负载进行人工审查。这些指标与作业操作、资源管理和基本服务功能有关。