

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 开始使用 Amazon EKS 支持 SageMaker HyperPod
<a name="sagemaker-hyperpod-eks-prerequisites"></a>

除了一[使用的先决条件 SageMaker HyperPod](sagemaker-hyperpod-prerequisites.md)般内容外 SageMaker HyperPod，请查看以下使用 Amazon EKS 编排 SageMaker HyperPod 集群的要求和注意事项。

**重要**  
您可以使用和设置用于创建 SageMaker HyperPod 集群 AWS 管理控制台 的资源配置 CloudFormation。有关更多信息，请参阅[使用 Amazon EKS 编排创建 SageMaker HyperPod 集群](sagemaker-hyperpod-eks-operate-console-ui-create-cluster.md)和[使用 CloudFormation 模板创建 SageMaker HyperPod 集群](smcluster-getting-started-eks-console-create-cluster-cfn.md)。

**要求**

**注意**  
在创建 HyperPod 集群之前，您需要一个正在运行的 Amazon EKS 集群，该集群配置了 VPC 并使用 Helm 进行安装。
+ 如果使用 SageMaker AI 控制台，则可以在集群控制台页面中创建 Amazon EKS HyperPod 集群。有关更多信息，请参阅 [使用 Amazon EKS 编排创建 SageMaker HyperPod 集群](sagemaker-hyperpod-eks-operate-console-ui-create-cluster.md)。
+ 如果使用 AWS CLI，则应先创建一个 Amazon EKS 集群，然后再创建要关联的 HyperPod 集群。有关详细信息，请参阅《Amazon EKS 用户指南》中的[创建 Amazon EKS 集群](https://docs.aws.amazon.com/eks/latest/userguide/create-cluster.html)。

在配置 Amazon EKS 集群时，请考虑以下几点：

1. **支持 Kubernetes 版本**
   + SageMaker HyperPod 支持 Kubernetes 版本 1.28、1.29、1.30、1.31、1.32、1.33 和 1.34。

1. **Amazon EKS 集群验证模式**
   + 支持的 Amazon EKS 集群的身份验证模式 SageMaker HyperPod 是`API`和`API_AND_CONFIG_MAP`。

1. **联网**
   + SageMaker HyperPod 需要亚马逊 VPC 容器网络接口 (CNI) 插件版本 1.18.3 或更高版本。
**注意**  
[AWS 适用于 Kubernetes 的 VPC CNI 插件](https://github.com/aws/amazon-vpc-cni-k8s)是唯一支持的 CNI。 SageMaker HyperPod
   + 您的 VPC [中的子网类型](https://docs.aws.amazon.com/vpc/latest/userguide/configure-subnets.html#subnet-types)必须是 HyperPod集群的私有子网。

1. **IAM 角色**
   + 确保按照本[AWS Identity and Access Management 对于 SageMaker HyperPod](sagemaker-hyperpod-prerequisites-iam.md)节的指导 HyperPod 为其设置必要的 IAM 角色。

1. **Amazon EKS 集群插件**
   + 你可以继续使用亚马逊 EKS 提供的各种插件，例如 [Kube-Proxy、Core](https://docs.aws.amazon.com/eks/latest/userguide/add-ons-kube-proxy.html) [DNS](https://docs.aws.amazon.com/eks/latest/userguide/add-ons-coredns.html)、亚马逊 [VPC 容器网络接口 (CNI) 插件、亚马逊 EKS pod 身份、代理、亚马逊容器存储接口 (](https://docs.aws.amazon.com/eks/latest/userguide/add-ons-vpc-cni.html)CSI) 驱动程序 GuardDuty、适用于亚马逊 S3 CSI 的 Mountpoint 驱动程序、适用于 Amazon S3 CSI AWS 的发行版和可观察性代理。 FSx OpenTelemetry CloudWatch

**使用 Amazon EKS 配置 SageMaker HyperPod 集群的注意事项**
+ 您必须根据节点的类型使用不同的 IAM 角色。对于 HyperPod 节点，请使用基于的角色[的 IAM 角色适用于 SageMaker HyperPod](sagemaker-hyperpod-prerequisites-iam.md#sagemaker-hyperpod-prerequisites-iam-role-for-hyperpod)。对于 Amazon EKS 节点，请参阅 [Amazon EKS 节点 IAM 角色](https://docs.aws.amazon.com/eks/latest/userguide/create-node-role.html)。
+ 您可以使用两种方法在 SageMaker HyperPod 节点上配置和安装额外的 Amazon EBS 卷：[https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupSpecification.html#sagemaker-Type-ClusterInstanceGroupSpecification-InstanceStorageConfigs](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupSpecification.html#sagemaker-Type-ClusterInstanceGroupSpecification-InstanceStorageConfigs)用于集群级别的卷配置（在创建或更新实例组时可用），或者使用亚马逊弹性块存储 (Amazon EBS) Block Store (CSI) 容器存储接口 (CSI) 驱动程序进行动态容器级别的卷管理。使用 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupSpecification.html#sagemaker-Type-ClusterInstanceGroupSpecification-InstanceStorageConfigs](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupSpecification.html#sagemaker-Type-ClusterInstanceGroupSpecification-InstanceStorageConfigs)，将[本地路径](https://kubernetes.io/docs/concepts/storage/volumes/#local)设置为，以便将卷正确挂载`/opt/sagemaker`到您的 Amazon EKS 容器中。有关如何在 HyperPod 节点上部署 [Amazon EBS CSI](https://docs.aws.amazon.com/eks/latest/userguide/ebs-csi.html) 控制器的信息，请参阅[在 E SageMaker HyperPod KS 集群上使用 Amazon EBS CSI 驱动程序](sagemaker-hyperpod-eks-ebs.md)。
+ 如果您使用实例类型标签来定义调度约束，请确保使用前缀为的 SageMaker AI ML 实例类型。`ml.`例如，对于 P5 实例，使用 `ml.p5.48xlarge` 而不是 `p5.48xlarge`。

**使用 Amazon EKS 为 SageMaker HyperPod 集群配置网络的注意事项**
+ 每个 HyperPod 集群实例都支持一个弹性网络接口 (ENI)。有关每个实例类型的最大容器组（pod）数量，请参阅下表。    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/sagemaker-hyperpod-eks-prerequisites.html)
+ 默认情况下，只有带有 `hostNetwork = true` 的容器组（pod）才能访问 Amazon EC2 实例元数据服务（IMDS）。使用 Amazon EKS Pod 身份或[服务账户 (IRSA) 的 IAM 角色](https://docs.aws.amazon.com/eks/latest/userguide/iam-roles-for-service-accounts.html)来管理对 Pod AWS 凭证的访问权限。
+ EKS 编排的 HyperPod 集群支持双 IP 寻址模式，允许在启用的 IPv6 VPC 和子网环境中使用或 IPv4 为 IPv6 A IPv6 mazon EKS 集群进行配置。有关更多信息，请参阅 [SageMaker HyperPod 使用自定义 Amazon VPC 进行设置](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-optional-vpc)。

**使用集 HyperPod 群弹性功能的注意事项**
+ CPU 实例不支持节点自动替换。
+ 需要安装 HyperPod 运行状况监控代理才能使节点自动恢复正常工作。可使用 Helm 安装座席。有关更多信息，请参阅 [使用 Helm 在 Amazon EKS 集群上安装软件包](sagemaker-hyperpod-eks-install-packages-using-helm-chart.md)。
+  HyperPod 深度运行状况检查和运行状况监控代理支持 GPU 和 Trn 实例。
+ SageMaker 当节点接受深度健康检查时，AI 会对它们施加以下污点：

  ```
  effect: NoSchedule
  key: sagemaker.amazonaws.com/node-health-status
  value: Unschedulable
  ```
**注意**  
在打开 `DeepHealthChecks` 的情况下，无法为实例组中的节点添加自定义污点。

 Amazon EKS 集群运行后，在创建集群[使用 Helm 在 Amazon EKS 集群上安装软件包](sagemaker-hyperpod-eks-install-packages-using-helm-chart.md)之前，请按照中的说明使用 Helm 包管理器配置 HyperPod 集群。