开始 SageMaker HyperPod 使用 SageMaker AI 控制台 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

开始 SageMaker HyperPod 使用 SageMaker AI 控制台

以下教程演示如何创建新 SageMaker HyperPod 集群并通过 SageMaker AI 控制台 UI 使用 Slurm 对其进行设置。按照教程,您将创建一个包含三个 Slurm 节点的 HyperPod 集群,my-controller-groupmy-login-group、和。worker-group-1

创建集群

要导航到SageMaker HyperPod 集群页面并选择 Slurm 编排,请按照以下步骤操作。

  1. 打开 Amazon A SageMaker I 控制台,网址为https://console.aws.amazon.com/sagemaker/

  2. 在左侧导航窗格中选择 “集HyperPod 群”,然后选择 “集群管理”。

  3. SageMaker HyperPod 集群页面上,选择创建 HyperPod 集群

  4. 创建 HyperPod 集群下拉列表中,选择由 Slurm 编排

  5. 在 Slurm 集群创建页面上,您将看到两个选项。选择最适合您需求的选项。

    1. 快速设置-要立即开始使用默认设置,请选择快速设置。使用此选项, SageMaker AI 将在创建集群的过程中为 Lustre 创建新资源,例如 VPC、子网、安全组、Amazon S3 存储桶、IAM 角色和 FSx for Lustre。

    2. 自定义设置-要与现有 AWS 资源集成或有特定的网络、安全或存储要求,请选择自定义设置。使用此选项,您可以选择使用现有资源或创建新资源,还可以自定义最适合您需求的配置。

快速设置

在 “快速设置” 部分,按照以下步骤使用 Slurm 编排创建 HyperPod 集群。

为新集群指定名称。创建集群后,您无法更改名称。

要添加实例组,请选择添加组。每个实例组都可以进行不同的配置,您可以创建一个异构集群,该集群由具有不同实例类型的多个实例组组成。要部署集群,必须至少添加一个实例组。

重要

您一次可以添加一个实例组。要创建多个实例组,请对每个实例组重复该过程。

按照以下步骤添加实例组。

  1. 对于实例组类型,请为您的实例组选择一种类型。在本教程中,选择 Cont roller(head)my-controller-group,为 “登录my-login-group,为 “计算(worker)” 选择worker-group-1

  2. 名称中,为实例组指定一个名称。在本教程中,创建三个实例组,分别命名为 my-controller-groupmy-login-groupworker-group-1

  3. 对于实例容量,请选择按需容量或训练计划来预留计算资源。

  4. 对于实例类型,选择实例组的实例。本教程中,选择 ml.c5.xlargemy-controller-groupml.m5.4xlargemy-login-groupml.trn1.32xlargeworker-group-1

    确保选择的实例类型在账户中有足够的配额,或通过 SageMaker HyperPod 配额 申请额外配额。

  5. 对于实例数量,请指定一个不超过集群使用量实例配额的整数。在本教程中,为所有三个组输入 1

  6. 对于目标可用区,请选择将在其中配置实例的可用区。可用区应与您的加速计算容量所在的位置相对应。

  7. 对于每个实例的额外存储量 (GB)-可选,请指定一个介于 1 和 16384 之间的整数,以设置额外的 Elastic Block Store (EBS) 卷的大小(以千兆字节 (GB) 为单位)。EBS 卷附加到实例组的每个实例。附加 EBS 卷的默认挂载路径为 /opt/sagemaker。成功创建集群后,您可以 SSH 登录集群实例(节点),并通过运行 df -h 命令验证 EBS 卷是否已正确加载。如《Amazon Elastic Block Store 用户指南》中的 Amazon EBS 卷部分所述,附加 EBS 卷可提供稳定、非实例和独立持久化的存储。

  8. 选择添加实例组

本部分列出了创建集群的所有默认设置,包括将在集群创建过程中创建的所有新 AWS 资源。检查默认设置。

自定义设置

在 “自定义设置” 部分,按照以下步骤使用 Slurm 编排创建 HyperPod 集群。

为新集群指定名称。创建集群后,您无法更改名称。

对于实例恢复,选择 “自动-推荐” 或 “”。

为创建集群配置您的网络设置。创建集群后,无法更改这些设置。

  1. 对于 VPC,如果您已经拥有可以让 SageMaker AI 访问您的 VPC 的 VPC,请选择您自己的 VPC。要创建新的 VPC,请按照《Amazon Virtual Private Cloud 用户指南》创建 VPC 中的说明进行操作。您可以将其保留为 “” 以使用默认 SageMaker AI VPC。

  2. 对于 VPC IPv4 网段,请输入您的 VPC 的起始 IP。

  3. 对于可用区,请选择 HyperPod 将在其中为您的集群创建子网的可用区 (AZ)。选择 AZs 与您的加速计算容量位置相匹配的选项。

  4. 对于安全组,可以创建一个安全组或最多选择五个安全组,这些安全组配置了规则,允许在 VPC 内进行资源间通信。

要添加实例组,请选择添加组。每个实例组都可以进行不同的配置,您可以创建一个异构集群,该集群由具有不同实例类型的多个实例组组成。要部署集群,必须至少添加一个实例组。

重要

您一次可以添加一个实例组。要创建多个实例组,请对每个实例组重复该过程。

按照以下步骤添加实例组。

  1. 对于实例组类型,请为您的实例组选择一种类型。在本教程中,选择 Cont roller(head)my-controller-group,为 “登录my-login-group,为 “计算(worker)” 选择worker-group-1

  2. 名称中,为实例组指定一个名称。在本教程中,创建三个实例组,分别命名为 my-controller-groupmy-login-groupworker-group-1

  3. 对于实例容量,请选择按需容量或训练计划来预留计算资源。

  4. 对于实例类型,选择实例组的实例。本教程中,选择 ml.c5.xlargemy-controller-groupml.m5.4xlargemy-login-groupml.trn1.32xlargeworker-group-1

    确保选择的实例类型在账户中有足够的配额,或通过 SageMaker HyperPod 配额 申请额外配额。

  5. 对于实例数量,请指定一个不超过集群使用量实例配额的整数。在本教程中,为所有三个组输入 1

  6. 对于目标可用区,请选择将在其中配置实例的可用区。可用区应与您的加速计算容量所在的位置相对应。

  7. 对于每个实例的额外存储量 (GB)-可选,请指定一个介于 1 和 16384 之间的整数,以设置额外的 Elastic Block Store (EBS) 卷的大小(以千兆字节 (GB) 为单位)。EBS 卷附加到实例组的每个实例。附加 EBS 卷的默认挂载路径为 /opt/sagemaker。成功创建集群后,您可以 SSH 登录集群实例(节点),并通过运行 df -h 命令验证 EBS 卷是否已正确加载。如《Amazon Elastic Block Store 用户指南》中的 Amazon EBS 卷部分所述,附加 EBS 卷可提供稳定、非实例和独立持久化的存储。

  8. 选择添加实例组

您可以选择使用默认生命周期脚本或自定义生命周期脚本,这些脚本将存储在您的 Amazon S3 存储桶中。您可以在 Aw esome 分布式培训 GitHub 存储库中查看默认的生命周期脚本。要了解有关生命周期脚本的更多信息,请参阅使用生命周期脚本自定义 SageMaker HyperPod集群

  1. 对于生命周期脚本,请选择使用默认或自定义生命周期脚本。

  2. 对于生命周期脚本的 S3 存储桶,请选择创建新的存储桶或使用现有存储桶来存储生命周期脚本。

选择或创建允许 HyperPod 代表您运行和访问必要 AWS 资源的 IAM 角色。

配置要在 FSx 集群上配置 Lustre 文件系统。 HyperPod

  1. 对于文件系统,请为 Lustre 文件系统选择现有的, FSx 为 Lustre 文件系统创建一个新的 FSx 文件系统,或者不要 FSx 为 Lustre 文件系统置备。

  2. 对于每单位存储的吞吐量,请选择每 TiB 的预配置存储可用的吞吐量。

  3. 存储容量中,输入以 TB 为单位的容量值。

  4. 对于数据压缩类型,选择LZ4启用数据压缩。

  5. 对于 Lustre 版本,请查看新文件系统的建议值。

对于标签-可选,向新集群添加密钥和值对,并将集群作为 AWS 资源进行管理。要了解更多信息,请参阅标记您的 AWS 资源

部署资源

使用快速设置或自定义设置完成群集配置后,选择以下选项开始资源配置和集群创建。

  • 提交-SageMaker AI 将开始配置默认配置资源并创建集群。

  • 下载 CloudFormation 模板参数-您将下载配置参数 JSON 文件并运行 AWS CLI 命令部署 CloudFormation 堆栈以配置配置资源并创建集群。如果需要,您可以编辑下载的参数 JSON 文件。如果您选择此选项,请参阅中的更多说明使用 AWS CloudFormation 模板创建 SageMaker HyperPod 集群

删除集群并清理资源

成功测试创建 SageMaker HyperPod 集群后,它会继续以该InService状态运行,直到您删除该集群。我们建议您在不使用按需 SageMaker AI 实例时删除任何使用按需 AI 实例创建的集群,以免产生基于按需定价的持续服务费用。在本教程中,您创建了一个由两个实例组组成的集群。其中一个使用 C5 实例,因此请确保按照 删除集 SageMaker HyperPod 群 中的说明删除集群。

但是,如果您创建了具有预留计算容量的集群,则集群的状态不会影响服务计费。

要从本教程使用的 S3 存储桶中清理生命周期脚本,请转到集群创建过程中使用的 S3 存储桶并完全删除文件。

如果您已经测试了在集群上运行任何工作负载,请确保您是否上传了任何数据,或者您的任务是否将任何项目保存到不同的 S3 存储桶或文件系统服务,例如 Amazon for Lustre 和 Amazon Elastic File System 和 Amazon FSx Elastic File System。为防止产生任何费用,请删除存储或文件系统中的所有构件和数据。