创建带有受限实例组(RIG)的 HyperPod EKS 集群 - Amazon SageMaker AI

创建带有受限实例组(RIG)的 HyperPod EKS 集群

本主题介绍创建带有受限实例组(RIG)的 Amazon SageMaker HyperPod EKS 集群的步骤。SageMaker HyperPod EKS 集群中的 RIG 配置为训练 Amazon Nova 模型提供了专门的环境。RIG 具有以下限制:

  • RIG 工作负载在未连接互联网的 VPC 中运行,所有入口和出口都受到严格监管。

  • RIG 对 Kubernetes 函数(例如 kubectl exec 和日志)的可观测性有限制,以确保为 Nova 模型训练提供安全的环境。

  • RIG 仅支持 Nova 自定义图像,使用其他图像运行的作业将被拒绝。

在 HyperPod EKS 集群中设置实例组时,您可以创建 RIG。虽然您可以控制这些资源的大小和扩展,但不能直接访问 Worker 节点。这种架构可确保 Nova 组件(模型权重、检查点、训练数据和代码)只能通过受监管的渠道和服务托管账户系统进行访问。

基于 SageMaker HyperPod 的 Nova 模型自定义依赖于服务托管型适用于 Lustre 的 FSx 文件系统来实现极佳性能。创建 RIG 时,必须指定适用于 Lustre 的 FSx 文件系统的卷大小和吞吐量,该文件系统将挂载到实例组中的所有 Worker 节点。适用于 Lustre 的 FSx 用于在分布式训练期间存储中间检查点和内部模型状态。按照配方中提供的指导选择合适的卷大小和吞吐量,以确保足够的容量和性能。适用于 Lustre 的 FSx 的使用费用将通过您的 AWS 账户扣取。

在 HyperPod EKS 集群中创建 RIG 的重要注意事项

  • RIG 仅支持执行角色拥有相关权限。确保执行角色具备必要的 IAM 权限,例如对 Amazon S3 的访问权限。

  • 使用服务托管的适用于 Lustre 的 Amazon FSx 和 Amazon S3 时,请确保适用于 Lustre 的 FSx 文件系统的大小适合您的工作负载。训练数据清单已上传到 Amazon S3,执行角色必须可以访问该清单。

  • RIG 必须在全新 SageMaker HyperPod EKS 集群上创建或更新,特别是在 2025 年 7 月 16 日当天或之后创建的集群。在此日期之前创建的集群可能包含不兼容的软件版本或 RIG 不支持的配置。

  • 只有以下 AWS 区域版本才支持创建带有 RIG 的 HyperPod EKS 集群:us-east-1

创建带有受限实例组的 HyperPod EKS 集群(控制台 - 推荐)

本节详细说明了如何使用 AWS 管理控制台创建带有受限实例组的 HyperPod EKS 集群,用于实现 Amazon Nova 自定义。有关更多信息,请参阅 使用 Amazon EKS 编排创建 SageMaker HyperPod 集群

注意

您必须在 us-east-1 中创建集群,因为它是支持受限实例组的唯一 AWS 区域。

  1. 通过 https://console.aws.amazon.com/sagemaker/ 打开 Amazon SageMaker AI 控制台。

  2. 在左侧导航窗格中,选择 HyperPod 集群,然后选择集群管理

  3. SageMaker HyperPod 集群页面上,选择 HyperPod 集群

  4. 创建 HyperPod 集群下拉菜单中,选择由 Amazon EKS 编排

  5. 在集群创建页面上,选择快速设置功能。利用此选项,您可以立即开始使用默认设置。在创建集群的过程中,SageMaker AI 将创建新资源,例如 VPC、子网、安全组、Amazon S3 存储桶、IAM 角色和适用于 Lustre 的 FSx。

  6. 常规设置中,为新集群指定一个名称。创建集群后,无法更改该名称。

  7. 实例组上,选择添加组。每个实例组都可以进行不同的配置,您可以创建一个异构集群,该集群由具有不同实例类型的多个实例组组成。要部署集群,您必须添加至少一个实例组。一次可添加一个实例组。要创建多个实例组,请为每个实例组重复此过程。

    执行以下步骤来创建实例组。

    1. 对于实例组类型,选择受限实例组(RIG)受限实例组(RIG) 是用于基础模型自定义的专用环境(例如 Amazon Nova)。标准版提供了一个没有额外安全限制的通用计算环境。

    2. 对于名称,指定实例组的名称。

    3. 对于实例容量,选择按需容量或训练计划来预留计算资源。

    4. 对于实例类型,为实例组选择实例。您必须选择支持 Amazon Nova 模型自定义的实例类型,例如,ml.p5.48xlarge。此外,请确保选择的实例类型在您的 AWS 账户中具有足够的配额。要请求更多配额,请参阅SageMaker HyperPod 配额

    5. 对于实例数量,指定一个不超过集群使用实例配额的整数。在本快速入门中,为您正在创建的受限实例输入 1

    6. 对于目标可用区,选择将在其中预调配实例的可用区。可用区应与加速计算容量所在的位置相对应。

    7. 对于每个实例的附加存储卷(GB) – 可选,指定 1 到 16384 之间的整数,以千兆字节(GB)为单位设置附加 Elastic Block Store(EBS)卷的大小。EBS 卷附加到实例组的每个实例。附加 EBS 卷的默认挂载路径为 /opt/sagemaker。成功创建集群后,您可以通过 SSH 登录集群实例(节点),并通过运行 df -h 命令验证 EBS 卷是否已正确挂载。如《Amazon Elastic Block Store 用户指南》中的 Amazon EBS 卷部分所述,附加 EBS 卷可提供稳定、非实例和独立持久化的存储。

    8. 对于实例深度运行状况检查,选择您的选项。深度运行状况检查可在创建期间以及软件更新后监控实例的运行状况,启用后,它会通过重启或替换的方式自动恢复故障实例。

    9. 选择添加实例组

  8. 快速配置默认值上,查看默认设置。此部分列出了用于创建集群的所有默认设置,包括将在集群创建过程中创建的所有新的 AWS 资源。

  9. 选择提交

创建带有受限实例组的 HyperPod EKS 集群(CLI)

按照相关说明使用 AWS CLI 创建带有 RIG 的 HyperPod EKS 集群。