本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 AWS PCS 中設定自訂 Slurm 設定
使用自訂 Slurm 設定來設定叢集、佇列和運算節點群組資源的其他 Slurm 參數。此版本新增對佇列資源上 Slurm 設定的支援,提供對分割區特定行為的精細控制。
自訂 Slurm 設定的優點
自訂 Slurm 設定可精密控制 AWS PCS 型 HPC 環境。您可以實作詳細的會計、強制執行存取控制,並透過quality-of-service組態和先佔政策來最佳化工作負載執行。這些功能可確保關鍵任務接收必要的資源,同時維持有效率的叢集使用率。無論您管理 GPU 加速工作負載、實作公平共用排程或控制任務生命週期,自訂設定都有助於讓您的 HPC 基礎設施符合操作需求和研究目標。
設定自訂設定
自訂 Slurm 設定可以在資源建立期間透過 AWS 主控台、CLI 或 SDKs 進行設定,或稍後透過更新操作進行修改。
驗證和錯誤處理
AWS PCS 會實作自訂 Slurm 設定的多層驗證程序。在建立和更新操作期間,我們會執行同步驗證,其中包括:
-
欄位層級檢查:我們會驗證個別設定是否有正確的資料類型、允許值和格式需求。例如,我們確保時間值採用正確的 Slurm 格式,而布林值使用接受的 Slurm 布林表示法。
-
內容感知驗證:某些設定會根據更廣泛的組態內容進行檢查。例如,某些參數只有在啟用 Slurm 會計時才有效。
-
設定間一致性:我們確認互斥選項未一起設定,且相互依存設定已正確設定。
如果驗證失敗,您將收到ValidationException
具有特定錯誤代碼 (例如 InvalidInput) 的 、描述問題的明確錯誤訊息,以及無效欄位的清單及其個別錯誤詳細資訊。
雖然在此初始驗證期間發現許多問題,但只有在套用組態時,設定之間的一些複雜互動才會變得明顯。在這種情況下,操作會失敗並顯示資訊性錯誤訊息,而任何部分變更都會復原。
限制
AWS PCS 實作允許清單方法,以保護服務安全和操作穩定性。會限制可能影響服務帳戶安全性或干擾受管服務功能的設定。不過,我們會持續評估客戶需求,並根據客戶意見回饋新增對其他設定的支援。