在 AWS PCS 中輪換叢集秘密 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 AWS PCS 中輪換叢集秘密

輪換您的叢集秘密以符合安全要求,並解決潛在的入侵。此程序需要讓您的叢集進入維護模式。

先決條件

  • 具有 secretsmanager:RotateSecret 許可的 IAM 角色

  • 叢集處於 ACTIVEUPDATE_FAILED 狀態

程序

  1. 通知叢集使用者即將到來的維護時段。

  2. 透過將所有運算節點群組擴展到 0 容量,將叢集置於維護模式。

    1. 使用 UpdateComputeNodeGroup API,將所有運算節點群組的 minInstanceCount 和 maxInstanceCount 設定為 0。

    2. 等到所有節點停止。

    3. 選用:在您終止容量以進行正常任務處理之前,使用 Slurm 命令耗盡排程器佇列。

  3. 透過 Secrets Manager 啟動輪換。

    • 主控台方法

      1. 導覽至 Secrets Manager,選取叢集秘密,然後選擇輪換秘密

    • API 方法

      1. 使用 Secrets Manager rotate-secret API。

  4. 監控輪換進度。

    1. 透過 CloudTrail 事件追蹤進度。

    2. lastRotatedDate 檢查 Secrets Manager 主控台或 secretsmanager:describeSecret API。

    3. 等待 RotationSucceededRotationFailed CloudTrail 事件。

  5. 輪換成功後,請還原叢集容量。

    1. 使用 UpdateComputeNodeGroup API 將節點群組重設為所需的最小/最大容量。

    2. 對於 AWS PCS 受管登入節點:不需要其他動作。

    3. 對於 BYO 登入節點:

      1. 連線至登入節點。

      2. /etc/slurm/slurm.key 使用 Secrets Manager 的新秘密進行更新。

      3. 重新啟動 Slurm Auth 和 Cred Kiosk 協助程式 (已封裝)。