疑難排解 AWS PCS 叢集更新 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

疑難排解 AWS PCS 叢集更新

本主題可協助您識別並解決更新叢集組態時可能發生的常見問題。

更新失敗,會計組態錯誤

常見原因

叢集進入 UPDATE_FAILED 狀態,錯誤訊息指出會計組態問題。這通常發生在會計組態與目前的 Slurm 版本不相容或包含無效的設定時。

Resolution

檢閱您的會計設定是否與叢集的 Slurm 版本相容,並使用有效的組態參數提交更正後的更新請求。

更新失敗,並出現自訂設定錯誤

常見原因

叢集進入 UPDATE_FAILED 狀態,錯誤訊息指出 Slurm 自訂設定問題。當您提供無效的 Slurm 參數值或不支援的參數組合時,就會發生這種情況。

Resolution

根據支援的參數驗證 Slurm 自訂設定,並提交具有有效參數值和組合的已更正更新請求。

無法提交更新請求

常見原因

更新按鈕會在主控台中停用,否則 API 會傳回 400 層級的錯誤。當叢集未處於適當狀態、相關聯的資源未處於作用中狀態,或您的組態中有驗證失敗時,就會發生這種情況。

Resolution

等待叢集和所有相關資源達到 ACTIVE 狀態,然後檢閱您的組態是否有驗證錯誤,再重新提交更新請求。

驗證錯誤

常見原因

命令會立即傳回 400 層級 HTTP 錯誤和描述性訊息。這是因為無效的叢集狀態、資源狀態或組態參數。

Resolution

解決回應中提到的特定驗證錯誤,然後重試更新操作。