本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
對 AWS PCS 中的自訂 Slurm 設定進行故障診斷
如果您在使用 Slurm 自訂設定建立或更新 AWS PCS 資源時發生錯誤,您可以使用 記錄來診斷和解決問題。
對不相容的 Slurm 自訂設定進行故障診斷
問題:執行叢集、運算節點群組或佇列操作時,您會收到類似以下的錯誤訊息:
{OPERATION} failed. The Slurm custom settings of the cluster might be incompatible. Check the settings and try again.
下列操作可能發生此錯誤:
-
CreateCluster
-
CreateComputeNodeGroup
-
UpdateComputeNodeGroup
-
CreateQueue
-
UpdateQueue
解決方案:啟用記錄以了解特定問題,並對不相容的設定進行故障診斷。
疑難排解不相容的 Slurm 自訂設定
-
如果叢集尚不存在,請建立叢集,或確保現有叢集處於可啟用記錄的狀態。
-
啟用叢集的記錄。如需詳細說明,請參閱 AWS PCS 的記錄和監控。
注意
建立叢集後,即可啟用記錄功能。
-
檢閱日誌以識別導致不相容的特定 Slurm 組態問題。
-
根據日誌資訊修正不相容的自訂設定,然後重試 操作。
如需支援的 Slurm 自訂設定的相關資訊,請參閱: