在 AWS PCS 中更新叢集 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 AWS PCS 中更新叢集

AWS PCS 可讓您在建立叢集組態後,透過 UpdateCluster API 或主控台更新叢集組態。您可以在不重建基礎設施的情況下修改叢集設定,從而減少營運開銷並將中斷降至最低。

叢集更新的優點

更新 AWS PCS 叢集可讓您根據新需求調整 HPC 基礎設施,而不會中斷服務。組態變更需要幾分鐘的時間,而不是重建叢集所需的小時或更長的時間。對於需要最短停機時間的生產環境,以及需要隨著工作負載模式變更調整叢集設定的團隊而言,此功能很重要。

支援的組態變更

您可以修改三個主要類別的設定:

  • 會計組態 - 啟用或停用受管會計並設定保留設定。

  • 縮減規模行為 - 調整 scaleDownIdleTime 參數,以控制動態執行個體在 AWS PCS 自動終止它們之前保持閒置狀態的時間。

  • Slurm 自訂設定 - 修改叢集層級套用的任何支援 Slurm 設定,包括 Prolog、Epilog 和 SelectTypeParameters。

限制

您無法在建立叢集後修改特定組態。其中包含:

  • 安全群組組態

  • VPC 子網路選擇

  • 叢集大小

  • Slurm 版本

  • 叢集名稱

這些設定是叢集架構的基礎,需要建立新的叢集來修改它們。

叢集更新的先決條件

更新叢集之前,請確定符合下列條件:

  • 叢集必須處於 ACTIVEUPDATE_FAILEDSUSPENDED 狀態

  • 所有相關資源 (佇列、運算節點群組) 必須處於 ACTIVE 狀態

  • 您必須擁有 UpdateCluster 操作的適當 IAM 許可

  • 無法進行其他更新操作

更新程序和任務影響

在更新操作期間,即使叢集控制器短暫無法連線,運算節點仍會繼續執行現有任務。不過,系統在此期間無法接受新的任務提交或做出排程決策。

您可以透過主控台和 API 界面來監控叢集更新。叢集將在更新期間轉換下列狀態:

  • UPDATING - 更新進行中

  • ACTIVE - 更新成功完成

  • UPDATE_FAILED - 更新發生錯誤

在更新期間計費

AWS PCS 叢集的標準每小時費用會在更新操作期間繼續。當您更新叢集以停用會計時,一旦叢集進入 UPDATING 狀態,會計功能的帳單就會停止。啟用會計時,在叢集成功完成更新並返回 ACTIVE 狀態之前,不會開始計費。