在 AWS PCS 中轮换集群密钥 - AWS PC

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 AWS PCS 中轮换集群密钥

轮换您的集群密钥以符合安全要求并解决潜在的漏洞。此过程需要将您的集群置于维护模式。

先决条件

  • 具有secretsmanager:RotateSecret权限的 IAM 角色

  • 集群处于ACTIVEUPDATE_FAILED状态

过程

  1. 通知集群用户即将到来的维护时段。

  2. 通过将所有计算节点组缩放到 0 容量,将集群置于维护模式。

    1. 使用 UpdateComputeNodeGroup API 将所有计算节点组 maxInstanceCount 的 minInstanceCount 和设置为 0。

    2. 等到所有节点停止。

    3. 可选:在终止容量以优雅地处理任务之前,使用 Slurm 命令耗尽调度器队列。

  3. 通过 Secrets Manager 启动轮换。

    • 控制台方法

      1. 导航到 Secrets Manager,选择您的集群密钥,然后选择轮换密钥

    • API 方法

      1. 使用 Secrets Manager rotate-secret API。

  4. 监控轮换进度。

    1. 通过 CloudTrail 事件跟踪进度。

    2. lastRotatedDate通过 Secrets Manager 控制台或 secretsmanager:describeSecret API 进行查看。

    3. 等待我们的RotationSucceededRotationFailed CloudTrail 活动。

  5. 成功轮换后,恢复集群容量。

    1. 使用 UpdateComputeNodeGroup API 将节点组重置为所需 min/max 容量。

    2. 对于 AWS PC 管理的登录节点:无需执行其他操作。

    3. 对于 BYO 登录节点:

      1. Connect 连接到登录节点。

      2. 使用 Sec /etc/slurm/slurm.key rets Manager 中的新密钥进行更新。

      3. 重启 Slurm Auth and Cred Kiosk 守护程序(sackd)。