在 AWS PCS 中更新集群 - AWS PC

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 AWS PCS 中更新集群

AWS PCS 允许您在创建集群配置后通过 UpdateCluster API 或控制台更新集群配置。无需重建基础架构即可修改集群设置,这样可以减少运营开销并最大限度地减少中断。

集群更新的好处

更新 AWS PCS 集群可以让您在不中断服务的情况下调整 HPC 基础架构以适应新的需求。配置更改需要几分钟,而不是重建集群所需的小时或更长时间。对于需要最少停机时间的生产环境以及需要在工作负载模式变化时调整群集设置的团队来说,此功能非常重要。

支持的配置更改

您可以修改三个主要类别的设置:

  • 记账配置-启用或禁用托管记账并配置保留设置。

  • 缩小行为-调整scaleDownIdleTime参数,该参数控制动态实例在 AWS PCS 自动终止之前保持空闲状态的时间。

  • Slurm 自定义设置-修改适用于集群级别的任何支持的 Slurm 设置,包括 Prolog、Epilog 和。 SelectTypeParameters

限制

集群创建后,您无法修改某些配置。这些指令包括:

  • 安全组配置

  • VPC 子网选择

  • 集群大小

  • Slurm 版本

  • 集群名称

这些设置是集群架构的基础,需要创建新的集群才能对其进行修改。

集群更新的先决条件

在更新集群之前,请确保满足以下条件:

  • 集群必须处于ACTIVEUPDATE_FAILED、或SUSPENDED状态

  • 所有关联的资源(队列、计算节点组)都必须处于ACTIVE状态

  • 您必须拥有相应的 IAM 权限才能 UpdateCluster 执行该操作

  • 无法进行其他更新操作

更新流程和任务影响

在更新操作期间,即使集群控制器短暂无法访问,计算节点仍会继续运行现有作业。但是,在此期间,系统无法接受新的工作提交或做出日程安排决定。

您可以通过控制台和 API 接口监控集群更新。更新期间,集群将进入以下状态:

  • UPDATING-更新正在进行中

  • ACTIVE-更新已成功完成

  • UPDATE_FAILED-更新遇到错误

更新期间的账单

更新操作期间,您的 AWS PCS 集群将继续按标准小时收费。当您更新集群以禁用记账功能时,一旦集群进入UPDATING状态,记账功能的计费就会停止。启用记账功能时,直到集群成功完成更新并恢复到ACTIVE状态后才会开始计费。