本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS PCS 中 Slurm 版本的版本備註
本主題說明 AWS PCS 目前支援的每個 Slurm 版本的重要變更。升級叢集時,建議您檢閱新舊版本之間的變更。
在 AWS PCS 中實作的變更
-
Slurm requeue_on_resume_failure SchedulerParameter 現在預設為啟用。
-
已移除「stderr」做為 LogTimeFormat 的選項,因為它已在 Slurm 25.05 中停用。
-
AWS PCS 支援多叢集堆疊組態:登入節點可以存取多個叢集。
如需 Slurm 25.05 的詳細資訊,請參閱下列出版物:
-
SchedMD 版本公告:https://https://www.schedmd.com/slurm-version-25-05-0-is-now-available/
-
SchedMD 版本備註:https://https://github.com/SchedMD/slurm/blob/slurm-25-05-0-1/RELEASE_NOTES.md
在 AWS PCS 中實作的變更
-
AWS PCS 支援 Slurm 會計。如需詳細資訊,請參閱AWS PCS 中的 Slurm 會計。
如需 Slurm 24.11 的詳細資訊,請參閱下列出版物:
在 AWS PCS 中實作的變更
-
新的 Slurm Step Manager 模組現在預設為在 AWS PCS 中啟用。本單元透過將步驟管理從中央控制器卸載至運算節點,大幅改善具有大量步驟用量的環境中的系統並行性,提供顯著的好處。為了支援此組態和更好的隔離
Prolog和Epilog程序執行,會啟用新的 prolog 旗標 (Contain、Alloc)。 -
啟用從控制器到運算節點的階層式通訊,以最佳化 Slurm 節點內通訊,進而改善可擴展性和效能。此外,路由組態現在使用分割區節點清單從控制器進行通訊,而不是外掛程式的預設路由演算法,以增強系統彈性。
-
新的雜湊外掛程式會
HashPlugin=hash/sha3取代先前的hash/k12 plugin。這現在預設為在 AWS PCS 叢集中啟用。 -
Slurm 控制器日誌現在包含對 的所有傳入遠端程序呼叫 (RPC) 的增強型稽核功能
slurmctld。日誌包含來源地址、已驗證的使用者,以及連線處理之前的 RPC 類型。
如需 Slurm 24.05 的詳細資訊,請參閱下列出版物:
您可以在 AWS PCS 中變更 Slurm 設定
-
SuspendTime預設為60。使用 AWS PCSscaleDownIdleTimeInSeconds組態參數進行設定。如需詳細資訊,請參閱 AWS PCS API 參考中ClusterSlurmConfiguration資料類型的scaleDownIdleTimeInSeconds參數。 -
MaxJobCount和MaxArraySize是根據您為叢集選擇的大小。如需詳細資訊,請參閱 PCSCreateClusterAPI 參考中 API 動作的size參數。 AWS -
SelectTypeParametersSlurm 設定預設為CR_CPU。您可以提供它做為值slurmCustomSettings,讓 在建立叢集時設定它。如需詳細資訊,請參閱 AWS PCS API 參考中CreateClusterAPI 動作和 SlurmCustomSetting 的slurmCustomSettings參數。 -
您可以在叢集層級設定
EpilogProlog和 。您可以提供它做為值slurmCustomSettings,讓 在建立叢集時設定它。如需詳細資訊,請參閱 AWS PCS API 參考中的CreateCluster和 SlurmCustomSetting。 -
您可以在運算節點群組層級設定
RealMemoryWeight和 。您可以在建立運算節點群組時,提供它做為 的值slurmCustomSettings。如需詳細資訊,請參閱 AWS PCS API 參考中的CreateComputeNodeGroup和 SlurmCustomSetting。