本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon EKS 编排创建 SageMaker HyperPod 集群
以下教程演示如何创建新 SageMaker HyperPod 集群并通过 A SageMaker I 控制台用户界面使用 Amazon EKS 编排对其进行设置。
创建集群
要导航到SageMaker HyperPod 集群页面并选择 Amazon EKS 编排,请按照以下步骤操作。
打开 Amazon A SageMaker I 控制台,网址为https://console.aws.amazon.com/sagemaker/
。 -
在左侧导航窗格中选择 “集HyperPod 群”,然后选择 “集群管理”。
-
在SageMaker HyperPod 集群页面上,选择创建 HyperPod 集群。
-
在创建 HyperPod 集群下拉列表中,选择由 Amazon EKS 编排。
-
在 EKS 集群创建页面上,您将看到两个选项,选择最适合您需求的选项。
-
快速设置-要立即开始使用默认设置,请选择快速设置。使用此选项, SageMaker AI 将在创建集群的过程中为 Lustre 创建新资源,例如 VPC、子网、安全组、Amazon S3 存储桶、IAM 角色和 FSx for Lustre。
-
自定义设置-要与现有 AWS 资源集成或有特定的网络、安全或存储要求,请选择自定义设置。使用此选项,您可以选择使用现有资源或创建新资源,还可以自定义最适合您需求的配置。
-
快速设置
在 “快速设置” 部分,按照以下步骤使用 Amazon EKS 编排创建您的 HyperPod 集群。
为新集群指定名称。创建集群后,您无法更改名称。
要添加实例组,请选择添加组。每个实例组都可以进行不同的配置,您可以创建一个异构集群,该集群由具有不同实例类型的多个实例组组成。要部署集群,必须至少添加一个实例组。按照以下步骤添加实例组。
-
对于实例组类型,选择标准或受限实例组 (RIG)。通常,您将选择标准,它提供了一个没有额外安全限制的通用计算环境。受限实例组 (RIG) 是用于基础模型定制(例如 Amazon Nova)的专用环境。有关为 Amazon Nova 模型自定义设置装备的更多信息,请参阅亚马逊上的 Amazon Nova 定制 SageMaker HyperPod。
-
在名称中,为实例组指定一个名称。
-
对于实例容量,请选择按需容量或训练计划来预留计算资源。
-
对于实例类型,选择实例组的实例。确保选择的实例类型在账户中有足够的配额,或通过 SageMaker HyperPod 配额 申请额外配额。
-
对于实例数量,请指定一个不超过集群使用量实例配额的整数。在本教程中,为所有三个组输入 1。
-
对于目标可用区,请选择将在其中配置实例的可用区。可用区应与您的加速计算容量所在的位置相对应。
-
对于每个实例的额外存储量 (GB)-可选,请指定一个介于 1 和 16384 之间的整数,以设置额外的 Elastic Block Store (EBS) 卷的大小(以千兆字节 (GB) 为单位)。EBS 卷附加到实例组的每个实例。附加 EBS 卷的默认挂载路径为
/opt/sagemaker
。成功创建集群后,您可以 SSH 登录集群实例(节点),并通过运行df -h
命令验证 EBS 卷是否已正确加载。如《Amazon Elastic Block Store 用户指南》中的 Amazon EBS 卷部分所述,附加 EBS 卷可提供稳定、非实例和独立持久化的存储。 -
例如,对于深度运行状况检查,请选择您的选项。深度运行状况检查可在创建期间和软件更新后监控实例的运行状况,启用后通过重启或替换自动恢复故障实例。
-
选择添加实例组。
本部分列出了创建集群的所有默认设置,包括将在集群创建过程中创建的所有新 AWS 资源。检查默认设置。
自定义设置
在 “自定义设置” 部分,按照以下步骤使用 Amazon EKS 编排创建您的第一个 HyperPod 集群。
为新集群指定名称。创建集群后,您无法更改名称。
对于实例恢复,选择 “自动-推荐” 或 “无”。
配置集群内和集群 in-and-out的网络设置。为了使用 Amazon EKS 编排 SageMaker HyperPod 集群,VPC 会自动设置为使用您选择的 EKS 集群配置的 VPC。
-
对于 VPC,如果您已经拥有可以让 SageMaker AI 访问您的 VPC 的 VPC,请选择您自己的 VPC。要创建新的 VPC,请按照《Amazon Virtual Private Cloud 用户指南》中创建 VPC 中的说明进行操作。您可以将其保留为 “无” 以使用默认 SageMaker AI VPC。
-
对于 VPC IPv4 网段,请输入您的 VPC 的起始 IP。
-
对于可用区,请选择 HyperPod 将在其中为您的集群创建子网的可用区 (AZ)。选择 AZs 与您的加速计算容量位置相匹配的选项。
-
对于安全组,请选择附加到 Amazon EKS 集群或其入站流量由与 Amazon EKS 集群关联的安全组允许的安全组。要创建新的安全组,请前往 Amazon VPC 控制台。
按照以下步骤创建或选择要用作协调器的 Amazon EKS 集群。
-
对于 EKS 集群,请选择创建新的 Amazon EKS 集群或使用现有集群。
如果您需要创建新的 EKS 集群,则可以从 EKS 集群部分创建该集群,而无需打开 Amazon EKS 控制台。
注意
您选择的 VPC 子网必须是私 HyperPod 有的。
提交新的 EKS 集群创建请求后,请等待 EKS 集群变成
Active
。 -
对于 Kubernetes 版本,请从下拉菜单中选择一个版本。有关 Kubernetes 版本的更多信息,请参阅亚马逊 EKS 用户指南中的了解 EKS 上的 Kubernetes 版本生命周期。
-
对于操作员,选择 “使用默认 Helm 图表和附加组件” 或 “不安装运算符”。该选项默认为使用默认 Helm 图表和插件,它们将用于在 EKS 集群上安装操作员。有关默认 Helm 图表和插件的更多信息,请参见
helm_chart
GitHub存储库。有关更多信息,请参阅 使用 Helm 在 Amazon EKS 集群上安装软件包。 -
对于已启用的运算符,请查看已启用的运算符列表。要编辑运算符,请取消选中顶部的复选框,然后选择要为 EKS 集群启用的运算符。
注意
要 HyperPod 与 EKS 一起使用,您必须在 EKS 集群上安装启用操作员的 Helm 图表和附加组件。这些组件将 EKS 配置为控制平面, HyperPod 并为工作负载管理和编排提供了必要的设置。
要添加实例组,请选择添加组。每个实例组都可以进行不同的配置,您可以创建一个异构集群,该集群由具有不同实例类型的多个实例组组成。要部署集群,必须至少添加一个实例组。按照以下步骤添加实例组。
-
对于实例组类型,选择标准或受限实例组 (RIG)。通常,您将选择标准,它提供了一个没有额外安全限制的通用计算环境。受限实例组 (RIG) 是用于基础模型定制(例如 Amazon Nova)的专用环境。有关为 Amazon Nova 模型自定义设置装备的更多信息,请参阅亚马逊上的 Amazon Nova 定制 SageMaker HyperPod。
-
在名称中,为实例组指定一个名称。
-
对于实例容量,请选择按需容量或训练计划来预留计算资源。
-
对于实例类型,选择实例组的实例。确保选择的实例类型在账户中有足够的配额,或通过 SageMaker HyperPod 配额 申请额外配额。
-
对于实例数量,请指定一个不超过集群使用量实例配额的整数。在本教程中,为所有三个组输入 1。
-
对于目标可用区,请选择将在其中配置实例的可用区。可用区应与您的加速计算容量所在的位置相对应。
-
对于每个实例的额外存储量 (GB)-可选,请指定一个介于 1 和 16384 之间的整数,以设置额外的 Elastic Block Store (EBS) 卷的大小(以千兆字节 (GB) 为单位)。EBS 卷附加到实例组的每个实例。附加 EBS 卷的默认挂载路径为
/opt/sagemaker
。成功创建集群后,您可以 SSH 登录集群实例(节点),并通过运行df -h
命令验证 EBS 卷是否已正确加载。如《Amazon Elastic Block Store 用户指南》中的 Amazon EBS 卷部分所述,附加 EBS 卷可提供稳定、非实例和独立持久化的存储。 -
例如,对于深度运行状况检查,请选择您的选项。深度运行状况检查可在创建期间和软件更新后监控实例的运行状况,启用后通过重启或替换自动恢复故障实例。要了解更多信息,请参阅 深度运行状况检查。
-
选择添加实例组。
您可以选择使用默认生命周期脚本或自定义生命周期脚本,这些脚本将存储在您的 Amazon S3 存储桶中。您可以在 Aw esome 分布式培训 GitHub 存储库
-
对于生命周期脚本,请选择使用默认或自定义生命周期脚本。
-
对于生命周期脚本的 S3 存储桶,请选择创建新的存储桶或使用现有存储桶来存储生命周期脚本。
选择或创建允许 HyperPod 代表您运行和访问必要 AWS 资源的 IAM 角色。有关更多信息,请参阅 的 IAM 角色适用于 SageMaker HyperPod。
配置要在 FSx 集群上配置 Lustre 文件系统。 HyperPod
-
对于文件系统,请为 Lustre 文件系统选择现有的, FSx 为 Lustre 文件系统创建一个新的 FSx 文件系统,或者不要 FSx 为 Lustre 文件系统置备。
-
对于每单位存储的吞吐量,请选择每 TiB 的预配置存储可用的吞吐量。
-
在存储容量中,输入以 TB 为单位的容量值。
-
对于数据压缩类型,选择LZ4启用数据压缩。
-
对于 Lustre 版本,请查看新文件系统的建议值。
对于标签-可选,向新集群添加密钥和值对,并将集群作为 AWS 资源进行管理。要了解更多信息,请参阅标记您的 AWS 资源。
部署资源
使用快速设置或自定义设置完成群集配置后,选择以下选项开始资源配置和集群创建。
-
提交-SageMaker AI 将开始配置默认配置资源并创建集群。
-
下载 CloudFormation 模板参数-您将下载配置参数 JSON 文件并运行 AWS CLI 命令部署 CloudFormation 堆栈以配置配置资源并创建集群。如果需要,您可以编辑下载的参数 JSON 文件。如果您选择此选项,请参阅中的更多说明使用 AWS CloudFormation 模板创建 SageMaker HyperPod 集群。