

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 AWS PCS 中設定自訂 Slurm 設定
<a name="slurm-custom-settings"></a>

使用自訂 Slurm 設定來設定叢集、佇列和運算節點群組資源的其他 Slurm 參數。此版本新增對佇列資源上 Slurm 設定的支援，提供對分割區特定行為的精細控制。

## 自訂 Slurm 設定的優點
<a name="custom-settings-benefits"></a>

自訂 Slurm 設定可精密控制 AWS PCS 型 HPC 環境。您可以實作詳細的會計、強制執行存取控制，並透過quality-of-service組態和先佔政策來最佳化工作負載執行。這些功能可確保關鍵任務接收必要的資源，同時維持有效率的叢集使用率。無論您管理 GPU 加速的工作負載、實作公平共用排程或控制任務生命週期，自訂設定都有助於讓您的 HPC 基礎設施符合營運需求和研究目標。

## 設定自訂設定
<a name="custom-settings-configuration"></a>

自訂 Slurm 設定可以在資源建立期間透過 AWS 主控台、CLI 或 SDKs 進行設定，或稍後透過更新操作進行修改。

------
#### [ AWS 管理主控台 ]

針對任何資源類型 （叢集、佇列或運算節點群組），導覽至建立或編輯頁面中的**其他排程器設定**。

**新增設定**

1. 選擇**新增設定**。

1. 從下拉式清單中選取**參數**名稱 （其中包含簡短參數說明）。

1. 提供對應的值。

**取消設定自訂設定**

1. 選擇相關參數/值對旁的**移除**。

1. 建立或更新 資源。

------
#### [ AWS CLI ]

若要以程式設計方式管理自訂設定，請在建立或更新操作中使用 `SlurmCustomSettings` 欄位。

**Example – 更新叢集上的 `Prolog` 參數**  

```
aws pcs update-cluster --cluster-identifier my-cluster \
--slurm-configuration \
'SlurmCustomSettings=[{parameterName=Prolog,parameterValue="/path/to/prolog.sh"}]'
```

**Example – 將佇列設定為叢集`Default`上的**  

```
aws pcs update-queue \
    --cluster-identifier my-cluster \
    --queue-identifier my-queue \
    --slurm-configuration 'SlurmCustomSettings=[{parameterName=Default,parameterValue=YES}]'
```

**Example – 在運算節點群組`Features`上設定自訂**  

```
aws pcs update-compute-node-group \
    --cluster-identifier my-cluster \
    --compute-node-group-identifier my-cng-1 \
    --slurm-configuration \
    'SlurmCustomSettings=[{parameterName=Features,parameterValue="gpu,nvme"}]'
```

------

## 驗證和錯誤處理
<a name="custom-settings-validation"></a>

AWS PCS 實作自訂 Slurm 設定的多層驗證程序。在建立和更新操作期間，我們會執行同步驗證，其中包括：
+ 欄位層級檢查：我們驗證個別設定是否有正確的資料類型、允許值和格式需求。例如，我們確保時間值是正確的 Slurm 格式，而布林值使用接受的 Slurm 布林表示法。
+ 內容感知驗證：針對更廣泛的組態內容檢查某些設定。例如，某些參數只有在啟用 Slurm 會計時才有效。
+ 設定間一致性：我們確認互斥選項未一起設定，且已正確設定相互依存設定。

如果驗證失敗，您將收到`ValidationException`具有特定錯誤代碼 （例如 InvalidInput) 的 、描述問題的明確錯誤訊息，以及無效欄位及其個別錯誤詳細資訊的清單。

雖然在此初始驗證期間發現許多問題，但只有在套用組態時，設定之間的一些複雜互動才會變得明顯。在這種情況下，操作會失敗並顯示資訊性錯誤訊息，而任何部分變更都會復原。

## 限制
<a name="custom-settings-limitations"></a>

AWS PCS 實作允許清單方法，以保護服務安全和操作穩定性。會限制可能影響服務帳戶安全性或干擾受管服務功能的設定。不過，我們會持續評估客戶需求，並根據客戶意見回饋新增對其他設定的支援。

**Topics**
+ [自訂 Slurm 設定的優點](#custom-settings-benefits)
+ [設定自訂設定](#custom-settings-configuration)
+ [驗證和錯誤處理](#custom-settings-validation)
+ [限制](#custom-settings-limitations)
+ [AWS PCS 叢集的自訂 Slurm 設定](slurm-custom-settings-cluster.md)
+ [AWS PCS 運算節點群組的自訂 Slurm 設定](slurm-custom-settings-cng.md)
+ [AWS PCS 佇列的自訂 Slurm 設定](slurm-custom-settings-queue.md)
+ [對 AWS PCS 中的自訂 Slurm 設定進行故障診斷](slurm-custom-settings-troubleshooting.md)