對 AWS PCS 中的自訂 Slurm 設定進行故障診斷 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

對 AWS PCS 中的自訂 Slurm 設定進行故障診斷

如果您在使用 Slurm 自訂設定建立或更新 AWS PCS 資源時發生錯誤,您可以使用 記錄來診斷和解決問題。

對不相容的 Slurm 自訂設定進行故障診斷

問題:執行叢集、運算節點群組或佇列操作時,您會收到類似以下的錯誤訊息:

{OPERATION} failed. The Slurm custom settings of the cluster might be incompatible. Check the settings and try again.

下列操作可能發生此錯誤:

  • CreateCluster

  • CreateComputeNodeGroup

  • UpdateComputeNodeGroup

  • CreateQueue

  • UpdateQueue

解決方案:啟用記錄以了解特定問題,並對不相容的設定進行故障診斷。

疑難排解不相容的 Slurm 自訂設定
  1. 如果叢集尚不存在,請建立叢集,或確保現有叢集處於可啟用記錄的狀態。

  2. 啟用叢集的記錄。如需詳細說明,請參閱 AWS PCS 的記錄和監控

    注意

    建立叢集後,即可啟用記錄功能。

  3. 檢閱日誌以識別導致不相容的特定 Slurm 組態問題。

  4. 根據日誌資訊修正不相容的自訂設定,然後重試 操作。

如需支援的 Slurm 自訂設定的相關資訊,請參閱: