多佇列模式 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

多佇列模式

AWS ParallelCluster 2.9.0 版推出多個佇列模式。當 scheduler 設為 slurmqueue_settings設定已定義時,支援多個佇列模式。此模式可讓不同的執行個體類型在運算節點中共存。包含不同執行個體類型的運算資源可以視需要擴展或縮減。在佇列模式中,最多支援五 (5) 個佇列,每個[queue]區段最多可參考三 (3) 個[compute_resource]區段。每個[queue]區段都是 中的分割區Slurm Workload Manager。如需詳細資訊,請參閱Slurm 適用於多個佇列模式的 指南多佇列模式教學課程

佇列中的每個[compute_resource]區段都必須有不同的執行個體類型,而且每個區段[compute_resource]都進一步分為靜態和動態節點。每個 的靜態節點[compute_resource]編號從 1 到 的值min_count。每個 的動態節點[compute_resource]會從一 (1) 編號為 (max_count - min_count)。例如,如果 min_count 是 2 且 max_count是 10,則 的動態節點會從一 (1) 編號為八 [compute_resource] (8)。在任何時間, 中的動態節點數目上限可以介於零 (0) 之間[compute_resource]

在運算機群中啟動的執行個體會動態指派。為了協助管理此項目,會為每個節點產生主機名稱。主機名稱的格式如下:

$HOSTNAME=$QUEUE-$STATDYN-$INSTANCE_TYPE-$NODENUM

  • $QUEUE 是佇列的名稱。例如,如果區段開始[queue queue-name],則 "$QUEUE" 為 "queue-name"。

  • $STATDYN st適用於靜態節點,或dy適用於動態節點。

  • $INSTANCE_TYPE 是 的執行個體類型[compute_resource],來自 instance_type設定。

  • $NODENUM 是節點的數目。min_count靜態節點$NODENUM的值介於一 (1) 和 之間,動態節點的值介於一 (1) 和 (max_count - min_count) 之間。

主機名稱和完整網域名稱 (FQDN) 都是使用 Amazon Route 53 託管區域建立。FQDN 是 $HOSTNAME.$CLUSTERNAME.pcluster,其中 $CLUSTERNAME是用於叢集的 [cluster]區段名稱。

若要將您的組態轉換為佇列模式,請使用 pcluster-config convert命令。它會使用名為 的單一[queue]區段撰寫更新的組態[queue compute]。該佇列包含名為 的單一[compute_resource]區段[compute_resource default][queue compute][compute_resource default]具有從指定[cluster]區段遷移的設定。