本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
疑難排解 AWS PCS 叢集更新
本主題可協助您識別並解決更新叢集組態時可能發生的常見問題。
更新失敗,會計組態錯誤
常見原因
叢集進入 UPDATE_FAILED 狀態,錯誤訊息指出會計組態問題。這通常發生在會計組態與目前的 Slurm 版本不相容或包含無效的設定時。
Resolution
檢閱您的會計設定是否與叢集的 Slurm 版本相容,並使用有效的組態參數提交更正後的更新請求。
更新失敗,並出現自訂設定錯誤
常見原因
叢集進入 UPDATE_FAILED 狀態,錯誤訊息指出 Slurm 自訂設定問題。當您提供無效的 Slurm 參數值或不支援的參數組合時,就會發生這種情況。
Resolution
根據支援的參數驗證 Slurm 自訂設定,並提交具有有效參數值和組合的已更正更新請求。
無法提交更新請求
常見原因
更新按鈕會在主控台中停用,否則 API 會傳回 400 層級的錯誤。當叢集未處於適當狀態、相關聯的資源未處於作用中狀態,或您的組態中有驗證失敗時,就會發生這種情況。
Resolution
等待叢集和所有相關資源達到 ACTIVE 狀態,然後檢閱您的組態是否有驗證錯誤,再重新提交更新請求。
驗證錯誤
常見原因
命令會立即傳回 400 層級 HTTP 錯誤和描述性訊息。這是因為無效的叢集狀態、資源狀態或組態參數。
Resolution
解決回應中提到的特定驗證錯誤,然後重試更新操作。