本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 AWS PCS 中更新叢集
AWS PCS 可讓您在建立叢集組態後,透過 UpdateCluster API 或主控台更新叢集組態。您可以在不重建基礎設施的情況下修改叢集設定,從而減少營運開銷並將中斷降至最低。
叢集更新的優點
更新 AWS PCS 叢集可讓您根據新需求調整 HPC 基礎設施,而不會中斷服務。組態變更需要幾分鐘的時間,而不是重建叢集所需的小時或更長的時間。對於需要最短停機時間的生產環境,以及需要隨著工作負載模式變更調整叢集設定的團隊而言,此功能很重要。
支援的組態變更
您可以修改三個主要類別的設定:
-
會計組態 - 啟用或停用受管會計並設定保留設定。
-
縮減規模行為 - 調整
scaleDownIdleTime參數,以控制動態執行個體在 AWS PCS 自動終止它們之前保持閒置狀態的時間。 -
Slurm 自訂設定 - 修改叢集層級套用的任何支援 Slurm 設定,包括 Prolog、Epilog 和 SelectTypeParameters。
限制
您無法在建立叢集後修改特定組態。其中包含:
-
安全群組組態
-
VPC 子網路選擇
-
叢集大小
-
Slurm 版本
-
叢集名稱
這些設定是叢集架構的基礎,需要建立新的叢集來修改它們。
叢集更新的先決條件
更新叢集之前,請確定符合下列條件:
-
叢集必須處於
ACTIVE、UPDATE_FAILED或SUSPENDED狀態 -
所有相關資源 (佇列、運算節點群組) 必須處於
ACTIVE狀態 -
您必須擁有 UpdateCluster 操作的適當 IAM 許可
-
無法進行其他更新操作
更新程序和任務影響
在更新操作期間,即使叢集控制器短暫無法連線,運算節點仍會繼續執行現有任務。不過,系統在此期間無法接受新的任務提交或做出排程決策。
您可以透過主控台和 API 界面來監控叢集更新。叢集將在更新期間轉換下列狀態:
-
UPDATING- 更新進行中 -
ACTIVE- 更新成功完成 -
UPDATE_FAILED- 更新發生錯誤
在更新期間計費
AWS PCS 叢集的標準每小時費用會在更新操作期間繼續。當您更新叢集以停用會計時,一旦叢集進入 UPDATING 狀態,會計功能的帳單就會停止。啟用會計時,在叢集成功完成更新並返回 ACTIVE 狀態之前,不會開始計費。