本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Slurm 組態自訂
從 3.6.0 AWS ParallelCluster 版開始,您可以在 AWS ParallelCluster 叢集slurm.confSlurm組態中自訂組態。
在叢集組態中,您可以使用下列叢集組態設定來自訂組態Slurm參數:
-
如果您同時指定 Slurm / SlurmSettings CustomSlurmSettings或 parameter. AWS ParallelCluster fails,即可自訂整個叢集的CustomSlurmSettingsIncludeFile參數。
-
使用 SlurmQueues / CustomSlurmSettings(映射到Slurm分割區) 自訂佇列的Slurm參數。
-
使用 / SlurmQueues / CustomSlurmSettings(映射至Slurm節點) ComputeResources 自訂運算資源的Slurm參數。
Slurm 使用 時的組態自訂限制和考量事項 AWS ParallelCluster
-
對於
CustomSlurmSettings和CustomSlurmSettingsIncludeFile設定,您只能指定和更新包含在您用來設定叢集的Slurm版本所支援的 AWS ParallelCluster 版本中的slurm.conf參數。 -
如果您在任何
CustomSlurmSettings參數中指定自訂Slurm組態, 會 AWS ParallelCluster 執行驗證檢查,並防止設定或更新與 AWS ParallelCluster 邏輯衝突的Slurm組態參數。已知與 衝突的Slurm組態參數 AWS ParallelCluster 會在拒絕清單中識別。如果新增其他Slurm功能,拒絕清單可能會在未來 AWS ParallelCluster 版本中變更。如需詳細資訊,請參閱拒絕列出的Slurm組態參數 CustomSlurmSettings。 -
AWS ParallelCluster 只會檢查參數是否在拒絕清單中。 AWS ParallelCluster 不會驗證您的自訂Slurm組態參數語法或語意。您有責任驗證您的自訂Slurm組態參數。無效的自訂Slurm組態參數可能會導致Slurm協助程式失敗,進而導致叢集建立和更新失敗。
-
如果您在 中指定自訂Slurm組態
CustomSlurmSettingsIncludeFile, AWS ParallelCluster 不會執行任何驗證。 -
您可以更新
CustomSlurmSettings和 ,CustomSlurmSettingsIncludeFile而無需停止和啟動運算機群。在此情況下,slurmctld會 AWS ParallelCluster 重新啟動協助程式並執行scontrol reconfigure命令。在整個叢集中註冊變更之前,某些Slurm組態參數可能需要不同的操作。例如,它們可能需要重新啟動叢集中的所有協助程式。您有責任驗證 AWS ParallelCluster 操作是否足以在更新期間傳播您的自訂Slurm組態參數設定。如果您發現 AWS ParallelCluster 操作不足,您有責任提供傳播更新設定所需的其他動作,如 Slurm 文件
中所建議。
拒絕列出的Slurm組態參數 CustomSlurmSettings
下表列出拒絕使用的 參數 AWS ParallelCluster 版本,從 3.6.0 版開始。 CustomSlurmSettings不支援 3.6.0 版之前的 AWS ParallelCluster 版本。
| Slurm 參數 | AWS ParallelCluster 版本中列入拒絕清單 |
|---|---|
|
CommunicationParameters |
3.6.0 |
|
Epilog |
3.6.0 |
|
GresTypes |
3.6.0 |
|
LaunchParameters |
3.6.0 |
|
Prolog |
3.6.0 |
|
ReconfigFlags |
3.6.0 |
|
ResumeFailProgram |
3.6.0 |
|
ResumeProgram |
3.6.0 |
|
ResumeTimeout |
3.6.0 |
|
SlurmctldHost |
3.6.0 |
|
SlurmctldLogFile |
3.6.0 |
|
SlurmctldParameters |
3.6.0 |
|
SlurmdLogfile |
3.6.0 |
|
SlurmUser |
3.6.0 |
|
SuspendExcNodes |
3.6.0 |
|
SuspendProgram |
3.6.0 |
|
SuspendTime |
3.6.0 |
|
TaskPlugin |
3.6.0 |
|
TreeWidth |
3.6.0 |
| Slurm 參數 | AWS ParallelCluster 版本中列入拒絕清單 |
|---|---|
|
AccountingStorageType |
3.6.0 |
|
AccountingStorageHost |
3.6.0 |
|
AccountingStoragePort |
3.6.0 |
|
AccountingStorageUser |
3.6.0 |
|
JobAcctGatherType |
3.6.0 |
| Slurm 參數 | AWS ParallelCluster 版本中列入拒絕清單 |
|---|---|
|
節點 |
3.6.0 |
|
PartitionName |
3.6.0 |
|
ResumeTimeout |
3.6.0 |
|
State |
3.6.0 |
|
SuspendTime |
3.6.0 |
| Slurm 參數 | 拒絕列出 AWS ParallelCluster 版本 和更新版本 |
|---|---|
|
CPUs |
3.6.0 |
|
功能 |
3.6.0 |
|
Gres |
3.6.0 |
|
NodeAddr |
3.6.0 |
|
NodeHostname |
3.6.0 |
|
NodeName |
3.6.0 |
|
Weight |
3.7.0 |