使用 SageMaker 控制台管理 SageMaker HyperPod Slurm 集群 - Amazon SageMaker AI

使用 SageMaker 控制台管理 SageMaker HyperPod Slurm 集群

以下主题介绍了如何通过管理控制台用户界面管理 SageMaker HyperPod。

创建 SageMaker HyperPod 集群

请按照通过 SageMaker AI 控制台开始使用 SageMaker HyperPod中的说明操作,通过 SageMaker HyperPod 控制台用户界面创建新的 SageMaker HyperPod 集群。

浏览您的 SageMaker HyperPod 集群

在 SageMaker HyperPod 控制台主页上,在 SageMaker HyperPod 控制台主窗格中的集群下,所有创建的集群都应列在集群部分,该部分提供了集群、其 ARN、状态和创建时间的汇总视图。

查看每个 SageMaker HyperPod 集群的详细信息

在管理控制台主页的集群下,集群名称已作为链接激活。选择集群名称链接,查看每个集群的详细信息。

编辑 SageMaker HyperPod 集群

  1. 在 SageMaker HyperPod 控制台主窗格中的集群下,选择要更新的集群。

  2. 选择您的集群,并选择编辑

  3. 编辑 <your-cluster> 页面上,可以编辑现有实例组的配置,添加更多实例组,并更改集群的标签。更改后,选择提交

    1. 配置实例组部分,可以通过选择创建实例组来添加更多实例组。

    2. 配置实例组部分,可以选择编辑以更改其配置,或选择删除以永久性移除实例组。

      重要

      在删除实例组时,请注意以下几点:

      • SageMaker HyperPod 集群必须始终保留至少一个实例组。

      • 确保在删除前备份所有关键数据

      • 删除过程无法撤销。

      注意

      删除实例组将终止与该组关联的所有计算资源。

    3. 标签部分,您可以更新集群的标记。

删除 SageMaker HyperPod 集群

  1. 在 SageMaker HyperPod 控制台主窗格中的集群下,选择要删除的集群。

  2. 选择您的集群,并选择删除

  3. 在弹出的集群删除窗口中,仔细查看集群信息,确认选择了正确的集群进行删除。

  4. 查看集群信息后,选择是,删除集群

  5. 在确认删除的文本字段中键入 delete

  6. 在弹出窗口的右下角选择删除,完成集群删除请求的发送。