

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 AWS PCS 中輪換叢集秘密
<a name="cluster-secret-rotation-procedure"></a>

輪換您的叢集秘密以符合安全要求，並解決潛在的入侵。此程序需要讓您的叢集進入維護模式。

## 先決條件
<a name="cluster-secret-rotation-procedure-prerequisites"></a>
+ 具有 `secretsmanager:RotateSecret` 許可的 IAM 角色
+ 叢集處於 `ACTIVE`或 `UPDATE_FAILED` 狀態

## 程序
<a name="cluster-secret-rotation-procedure-steps"></a>

1. 通知叢集使用者即將到來的維護時段。

1. 透過將所有運算節點群組擴展到 0 容量，將叢集置於維護模式。

   1. 使用 UpdateComputeNodeGroup API，將所有運算節點群組的 minInstanceCount 和 maxInstanceCount 設定為 0。

   1. 等到所有節點停止。

   1. 選用：在您終止容量以進行正常任務處理之前，使用 Slurm 命令耗盡排程器佇列。

1. 透過 Secrets Manager 啟動輪換。
   + **主控台方法**：

     1. 導覽至 Secrets Manager，選取叢集秘密，然後選擇**輪換秘密**。
   + **API 方法**：

     1. 使用 Secrets Manager `rotate-secret` API。

1. 監控輪換進度。

   1. 透過 CloudTrail 事件追蹤進度。

   1. `lastRotatedDate` 檢查 Secrets Manager 主控台或 `secretsmanager:describeSecret` API。

   1. 等待 `RotationSucceeded`或 `RotationFailed` CloudTrail 事件。

1. 輪換成功後，請還原叢集容量。

   1. 使用 UpdateComputeNodeGroup API 將節點群組重設為所需的最小/最大容量。

   1. 對於 AWS PCS 受管登入節點：不需要其他動作。

   1. 對於 BYO 登入節點：

      1. 連線至登入節點。

      1. `/etc/slurm/slurm.key` 使用 Secrets Manager 的新秘密進行更新。

      1. 重新啟動 Slurm Auth 和 Cred Kiosk 協助程式 （已封裝）。