SageMaker HyperPod 多主節點支援 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker HyperPod 多主節點支援

您可以在單一 SageMaker HyperPod Slurm 叢集中建立多個控制器 (主) 節點,其中一個做為主要控制器節點,另一個則做為備份控制器節點。主要控制器節點負責控制運算 (工作者) 節點和處理 Slurm 操作。備份控制器節點會持續監控主要控制器節點。如果主要控制器節點失敗或沒有回應,其中一個備份控制器節點會自動接管為新的主要控制器節點。

在 SageMaker HyperPod Slurm 叢集中設定多個控制器節點可提供數個主要優勢。它透過提供控制器主節點來消除單一控制器節點失敗的風險、啟用自動容錯移轉到具有更快復原速度的備份控制器節點,並允許您獨立管理自己的會計資料庫和 Slurm 組態。

重要概念

以下詳述了 SageMaker HyperPod 多控制器 (主) 節點對 Slurm 叢集的支援相關概念。

控制器節點

控制器節點是叢集內的 Amazon EC2 執行個體,執行關鍵 Slurm 服務以管理和協調叢集的操作。具體而言,它會託管 Slurm 控制器常駐程式 (slurmctld)Slurm 資料庫常駐程式 (slurmdbd)。控制器節點也稱為主節點。

主要控制器節點

主要控制器節點是 Slurm 叢集中作用中且目前控制的控制器節點。它由 Slurm 識別為主要控制器節點,負責管理叢集。主要控制器節點會從使用者接收並執行命令,以控制和配置運算節點上用於執行任務的資源。

備份控制器節點

備份控制器節點是 Slurm 叢集中的非作用中和待命控制器節點。Slurm 會將其識別為目前未管理叢集的備份控制器節點。備份控制器節點會以待命模式執行 Slurm 控制器常駐程式 (slurmctld)。在備份控制器節點上執行的任何控制器命令都會傳播到主要控制器節點以進行執行。其主要目的是持續監控主要控制器節點,並在主要控制器節點失敗或無回應時接管其責任。

運算節點

運算節點是叢集內託管 Slurm 工作者常駐程式 (slurmd) 的 Amazon EC2 執行個體。運算節點的主要功能是執行在主要控制器節點上執行的 Slurm 控制器常駐程式 (slurmctld) 所指派的任務。排程任務時,運算節點會收到 Slurm 控制器常駐程式 (slurmctld) 的指示,以執行節點本身內該工作的必要任務和運算。運算也稱為工作節點。

運作方式

下圖說明不同的 AWS服務如何一起運作,以支援 SageMaker HyperPod Slurm 叢集的多個控制器 (前端) 節點架構。

SageMaker HyperPod 多主節點架構圖

共同支援 SageMaker HyperPod 多控制器 (前端) 節點架構AWS的服務包括下列項目。

AWS服務共同支援 SageMaker HyperPod 多個控制器節點架構
服務 Description
IAM (AWS Identity and Access Management) 定義兩個 IAM 角色以控制存取許可:一個角色用於運算節點執行個體群組,另一個角色用於控制器節點執行個體群組。
Amazon RDS for MariaDB 存放 Slurm 的會計資料,其中保留任務記錄和計量資料。
AWS Secrets Manager 存放和管理 Amazon FSx for Lustre 可存取的憑證。
Amazon FSx for Lustre 存放 Slurm 組態和執行時期狀態。
Amazon VPC 提供隔離的網路環境,其中部署了 HyperPod 叢集及其資源。
Amazon SNS 發生與主要控制器 (主) 節點相關的狀態變更 (Slurm 控制器為 ONOFF) 時,將通知傳送給管理員。

HyperPod 叢集本身包含控制器節點 (主要和備份) 和運算節點。控制器節點會執行 Slurm 控制器 (SlurmCtld) 和資料庫 (SlurmDBd) 元件,這些元件可管理和監控跨運算節點的工作負載。

控制器節點會存取 Amazon FSx for Lustre 檔案系統中存放的 Slurm 組態和執行時期狀態。Slurm 會計資料存放在 Amazon RDS for MariaDB 資料庫。 AWS Secrets Manager提供控制器節點資料庫登入資料的安全存取權。

如果 Slurm 控制器節點中有狀態變更 (Slurm 控制器為 ONOFF),Amazon SNS 會將通知傳送給管理員,以採取進一步動作。

此多個控制器節點架構消除了單一控制器 (主) 節點的單一故障點、啟用快速且自動的容錯移轉復原,並可讓您控制 Slurm 會計資料庫和組態。