本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
多佇列模式
AWS ParallelCluster 2.9.0 版推出多個佇列模式。當 scheduler 設為 slurm
且 queue_settings設定已定義時,支援多個佇列模式。此模式可讓不同的執行個體類型在運算節點中共存。包含不同執行個體類型的運算資源可以視需要擴展或縮減。在佇列模式中,最多支援五 (5) 個佇列,每個[queue]區段最多可參考三 (3) 個[compute_resource]區段。每個[queue]區段都是 中的分割區Slurm Workload Manager。如需詳細資訊,請參閱Slurm 適用於多個佇列模式的 指南及多佇列模式教學課程。
佇列中的每個[compute_resource]區段都必須有不同的執行個體類型,而且每個區段[compute_resource]
都進一步分為靜態和動態節點。每個 的靜態節點[compute_resource]
編號從 1 到 的值min_count。每個 的動態節點[compute_resource]
會從一 (1) 編號為 (max_count - min_count
)。例如,如果 min_count
是 2 且 max_count
是 10,則 的動態節點會從一 (1) 編號為八 [compute_resource]
(8)。在任何時間, 中的動態節點數目上限可以介於零 (0) 之間[compute_resource]
。
在運算機群中啟動的執行個體會動態指派。為了協助管理此項目,會為每個節點產生主機名稱。主機名稱的格式如下:
$HOSTNAME=$QUEUE-$STATDYN-$INSTANCE_TYPE-$NODENUM
-
$QUEUE
是佇列的名稱。例如,如果區段開始[queue
,則 "queue-name
]$QUEUE
" 為 "queue-name
"。 -
$STATDYN
st
適用於靜態節點,或dy
適用於動態節點。 -
$INSTANCE_TYPE
是 的執行個體類型[compute_resource]
,來自 instance_type設定。 -
$NODENUM
是節點的數目。min_count靜態節點$NODENUM
的值介於一 (1) 和 之間,動態節點的值介於一 (1) 和 (max_count -min_count
) 之間。
主機名稱和完整網域名稱 (FQDN) 都是使用 Amazon Route 53 託管區域建立。FQDN 是 $HOSTNAME.$CLUSTERNAME.pcluster
,其中 $CLUSTERNAME
是用於叢集的 [cluster]區段名稱。
若要將您的組態轉換為佇列模式,請使用 pcluster-config convert命令。它會使用名為 的單一[queue]區段撰寫更新的組態[queue compute]
。該佇列包含名為 的單一[compute_resource]區段[compute_resource default]
。[queue compute]
和 [compute_resource default]
具有從指定[cluster]區段遷移的設定。