

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# AWS ParallelCluster 程序
<a name="processes-v3"></a>

本節適用於使用 部署的叢集Slurm。與此排程器搭配使用時， 會與基礎任務排程器 AWS ParallelCluster 互動，以管理運算節點佈建和移除。

對於以 為基礎的 HPC 叢集 AWS Batch， AWS ParallelCluster 依賴 提供的功能 AWS Batch 來管理運算節點。

## `clustermgtd`
<a name="clustermgtd-v3"></a>

叢集管理常駐程式 (`clustermgtd`) 會執行下列任務：
+ 清除非作用中分割區
+ 管理與容量區塊相關聯的Slurm保留和節點 （請參閱下一節）
+ 管理靜態容量，以確保其始終正常運作
+ 將排程器與 Amazon EC2 同步。
+ 清除孤立的執行個體
+ 在暫停工作流程之外發生的 Amazon EC2 終止時還原排程器節點狀態
+ 管理運作狀態不佳的 Amazon EC2 執行個體 （未通過 Amazon EC2 運作狀態檢查的執行個體）
+ 管理排定的維護事件
+ 管理運作狀態不佳的排程器節點 （未通過排程器運作狀態檢查的節點）

### 與容量區塊相關聯的Slurm保留和節點管理
<a name="mgmtofSlurmReservationNodesForCB-v3"></a>

ParallelCluster 支援Machine Learning (CB) 的隨需容量保留 (ODCR) 和容量區塊。與 ODCR 不同，CB 可以有未來的開始時間，並且有時間限制。

`clustermgtd` 會搜尋迴圈中運作狀態不佳的節點、終止任何停機的 Amazon EC2 執行個體，如果它們是靜態節點，則會將其取代為新的執行個體。

AWS ParallelCluster 會以不同方式管理與容量區塊相關聯的靜態節點 – 即使 CB 尚未處於作用中狀態，也會建立叢集，並在 CB 處於作用中狀態時自動啟動執行個體。

與尚未啟用CBs 相關聯的運算資源對應的Slurm節點會保持在維護狀態，直到達到 CB 開始時間為止。這些Slurm節點會維持在與Slurm管理員使用者相關聯的保留/維護狀態，這表示他們可以接受任務，但任務會保持待定狀態，直到移除Slurm保留為止。

`clustermgtd` 會自動建立或刪除Slurm保留 – 它會根據 CB 狀態，將相關的 CB 節點置於維護狀態。當 CB 變為作用中時，會移除Slurm保留，節點會開始並可用於待定任務或提交新的任務。

達到 CB 結束時間時，節點會移回保留/維護狀態。當 CB 不再作用中且執行個體終止時，最多可以讓使用者將任務重新提交/重新排入佇列至新的佇列/運算資源。

## `clusterstatusmgtd`
<a name="clusterstatusmgtd-v3"></a>

叢集狀態管理常駐程式 (`clusterstatusmgtd`) 會管理運算機群狀態更新。每分鐘都會擷取存放在 DynamoDB 資料表中的機群狀態，並管理任何 STOP/START 請求。

## `computemgtd`
<a name="computemgtd-v3"></a>

運算管理常駐程式 (`computemgtd`) 程序會在每個叢集運算節點上執行。每五 (5) 分鐘，運算管理協助程式會確認可以到達前端節點且運作狀態良好。如果經過五 (5) 分鐘，頭部節點無法到達或狀況不良，則會關閉運算節點。