

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用 Amazon EKS 编排 SageMaker HyperPod 集群
<a name="sagemaker-hyperpod-eks"></a>

SageMaker HyperPod 是一项 SageMaker AI 托管服务，支持在长时间运行且具有弹性的计算集群上大规模训练基础模型，并与 Amazon EKS 集成以协调计算资源。 HyperPod 您可以使用具有 HyperPod弹性功能的 Amazon EKS 集群大规模运行数周或数月的不间断训练作业，这些集群可以检查各种硬件故障并自动恢复故障节点。

针对集群管理员用户的主要功能如下。
+ 配置弹性 HyperPod 集群并将其连接到 EKS 控制平面
+ 启用动态容量管理，例如添加更多节点、更新软件和删除集群
+ 通过 `kubectl` 或 SSM/SSH 直接访问集群实例
+ 提供[弹性功能](sagemaker-hyperpod-eks-resiliency.md)，包括基本运行状况检查、深度运行状况检查、运行状况监控代理以及对作业自动恢复的 PyTorch 支持
+ [与 [Amazon Container Insights、[适用于 Prometheus 的亚马逊托管服务和](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html)亚马逊托管 Grafana 等可观察性工具 CloudWatch集](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html)成](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html)

对于数据科学家用户，中的 EKS 支持 HyperPod 可实现以下功能。
+ 在集群上运行用于训练基础模型的容器化工作负载 HyperPod 
+ 利用 HyperPod 和 EKS 之间的集成，在 EKS 集群上运行推理
+ 利用作业自动恢复功能进行 [Kubeflow PyTorch ](https://www.kubeflow.org/docs/components/training/user-guides/pytorch/) 训练 () PyTorchJob

**注意**  
Amazon EKS 允许用户 SageMaker HyperPod通过 Amazon EKS 控制平面管理任务和基础设施。确保用户通过 Kubernetes API Server 端点访问集群时遵循最低权限原则，并且集群的网络出站是安全的。 HyperPod   
要详细了解如何保护对 Amazon EKS API 服务器的访问，请参阅[控制对集群 API 服务器端点的网络访问](https://docs.aws.amazon.com/eks/latest/userguide/cluster-endpoint.html)。  
要了解有关保护网络访问的更多信息 HyperPod，请参阅[SageMaker HyperPod 使用自定义 Amazon VPC 进行设置](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-optional-vpc)。

中 Amazon EKS 支持的高级架构 HyperPod 涉及 VPC 内的 EKS 集群（控制平面）和 HyperPod 集群（工作节点）之间的一对一映射，如下图所示。

![](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/hyperpod-eks-diagram.png)
