使用受限实例组 (RIG) 创建 HyperPod EKS 集群 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用受限实例组 (RIG) 创建 HyperPod EKS 集群

本主题介绍使用受限实例组 (RIG) 创建 Amazon SageMaker HyperPod EKS 集群的步骤。 SageMaker HyperPod EKS 集群中的 RIG 配置为训练 Amazon Nova 模型提供了一个专门的环境。RIG 有以下限制:

  • RIG 工作负载在没有互联网的 VPC 中运行,所有入口和出口都受到严格监管。

  • RIG 对 Kubernetes 函数(例如 Kubectl exec 和日志)的可观察性有限制,以确保为 Nova 模型训练提供安全的环境。

  • RIG 仅允许 Nova 自定义镜像,使用其他镜像运行的作业将被拒绝。

您可以在您的 E HyperPod KS 集群中设置实例组 RIGs 时创建。虽然您可以控制这些资源的大小和缩放比例,但不能直接访问工作节点。这种架构确保 Nova 组件(模型权重、检查点、训练数据和代码)只能通过受监管的渠道和服务管理的账户系统进行访问。

Nova 模型的定制 SageMaker HyperPod 依赖 FSx 于 Lustre 文件系统的服务管理来实现最佳性能。创建 RIG 时,必须为 for Lustre 文件系统指定卷大小和吞吐量,该文件系统将挂载到实例组中的所有工作节点上。 FSx FSx for Lustre 用于在分布式训练期间存储中间检查点和内部模型状态。按照配方中提供的指导选择合适的卷大小和吞吐量,以确保足够的容量和性能。 FSx 对于 Lustre 来说,使用费用将适用于您 AWS 账户。

HyperPod EKS 集群中的 RIG 的重要注意事项

  • RIG 仅支持使用执行角色来获得权限。确保执行角色包含必要的 IAM 权限,例如对 Amazon S3 的访问权限。

  • 使用服务托管的 Amazon f FSx or Lustre 和 Amazon S3 时,请确保您的 f FSx or Lustre 文件系统的大小适合您的工作负载。训练数据清单已上传到 Amazon S3,执行角色必须可以访问该清单。

  • RIG 必须专门在新的 SageMaker HyperPod EKS 集群上创建或更新,该集群是在 2025 年 7 月 16 日当天或之后创建的。在此日期之前创建的集群可能包含不兼容的软件版本或 RIG 不支持的配置。

使用 RIG(控制台)创建 HyperPod EKS 集群

按照以下说明使用 HyperPod 控制台创建带 HyperPod 有 RIG 的 EKS 集群。

使用 RIG (CLI) 创建 HyperPod EKS 集群

按照以下说明使用创建带有 RIG 的 HyperPod EKS 集群 AWS CLI。