在 AWS PCS 中設定自訂 Slurm 設定 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 AWS PCS 中設定自訂 Slurm 設定

使用自訂 Slurm 設定來設定叢集、佇列和運算節點群組資源的其他 Slurm 參數。此版本新增對佇列資源上 Slurm 設定的支援,提供對分割區特定行為的精細控制。

自訂 Slurm 設定的優點

自訂 Slurm 設定可精密控制 AWS PCS 型 HPC 環境。您可以實作詳細的會計、強制執行存取控制,並透過quality-of-service組態和先佔政策來最佳化工作負載執行。這些功能可確保關鍵任務接收必要的資源,同時維持有效率的叢集使用率。無論您管理 GPU 加速工作負載、實作公平共用排程或控制任務生命週期,自訂設定都有助於讓您的 HPC 基礎設施符合操作需求和研究目標。

設定自訂設定

自訂 Slurm 設定可以在資源建立期間透過 AWS 主控台、CLI 或 SDKs 進行設定,或稍後透過更新操作進行修改。

AWS Management Console

針對任何資源類型 (叢集、佇列或運算節點群組),導覽至建立或編輯頁面中的其他排程器設定

新增設定
  1. 選擇新增設定

  2. 從下拉式清單中選取參數名稱 (其中包含簡短參數說明)。

  3. 提供對應的值。

取消設定自訂設定
  1. 選擇相關參數/值對旁的移除

  2. 建立或更新 資源。

AWS CLI

若要以程式設計方式管理自訂設定,請在建立或更新操作中使用 SlurmCustomSettings 欄位。

範例 – 更新叢集上的 Prolog 參數
aws pcs update-cluster --cluster-identifier my-cluster \ --slurm-configuration \ 'SlurmCustomSettings=[{parameterName=Prolog,parameterValue="/path/to/prolog.sh"}]'
範例 – 將佇列設定為叢集Default上的
aws pcs update-queue \ --cluster-identifier my-cluster \ --queue-identifier my-queue \ --slurm-configuration 'SlurmCustomSettings=[{parameterName=Default,parameterValue=YES}]'
範例 – 在運算節點群組Features上設定自訂
aws pcs update-compute-node-group \ --cluster-identifier my-cluster \ --compute-node-group-identifier my-cng-1 \ --slurm-configuration \ 'SlurmCustomSettings=[{parameterName=Features,parameterValue="gpu,nvme"}]'

驗證和錯誤處理

AWS PCS 會實作自訂 Slurm 設定的多層驗證程序。在建立和更新操作期間,我們會執行同步驗證,其中包括:

  • 欄位層級檢查:我們會驗證個別設定是否有正確的資料類型、允許值和格式需求。例如,我們確保時間值採用正確的 Slurm 格式,而布林值使用接受的 Slurm 布林表示法。

  • 內容感知驗證:某些設定會根據更廣泛的組態內容進行檢查。例如,某些參數只有在啟用 Slurm 會計時才有效。

  • 設定間一致性:我們確認互斥選項未一起設定,且相互依存設定已正確設定。

如果驗證失敗,您將收到ValidationException具有特定錯誤代碼 (例如 InvalidInput) 的 、描述問題的明確錯誤訊息,以及無效欄位的清單及其個別錯誤詳細資訊。

雖然在此初始驗證期間發現許多問題,但只有在套用組態時,設定之間的一些複雜互動才會變得明顯。在這種情況下,操作會失敗並顯示資訊性錯誤訊息,而任何部分變更都會復原。

限制

AWS PCS 實作允許清單方法,以保護服務安全和操作穩定性。會限制可能影響服務帳戶安全性或干擾受管服務功能的設定。不過,我們會持續評估客戶需求,並根據客戶意見回饋新增對其他設定的支援。