翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
PCS AWS クラスターの更新のトラブルシューティング
このトピックは、クラスター設定の更新時に発生する可能性がある一般的な問題を特定して解決するのに役立ちます。
更新がアカウンティング設定エラーで失敗する
一般的な原因
クラスターが UPDATE_FAILED 状態になり、エラーメッセージはアカウンティング設定の問題を示します。これは通常、アカウンティング設定が現在の Slurm バージョンと互換性がない場合、または無効な設定が含まれている場合に発生します。
解決方法
アカウンティング設定でクラスターの Slurm バージョンとの互換性を確認し、有効な設定パラメータを使用して修正された更新リクエストを送信します。
更新がカスタム設定エラーで失敗する
一般的な原因
クラスターが UPDATE_FAILED 状態になり、エラーメッセージは Slurm カスタム設定の問題を示します。これは、無効な Slurm パラメータ値またはサポートされていないパラメータの組み合わせを指定した場合に発生します。
解決方法
サポートされているパラメータに対して Slurm カスタム設定を検証し、有効なパラメータ値と組み合わせを使用して修正された更新リクエストを送信します。
更新リクエストを送信できません
一般的な原因
更新ボタンはコンソールで無効になっているか、API が 400 レベルのエラーを返します。これは、クラスターが適切な状態にない場合、関連するリソースがアクティブでない場合、または設定で検証に失敗した場合に発生します。
解決方法
クラスターと関連するすべてのリソースが ACTIVE状態になるまで待ってから、設定で検証エラーを確認してから、更新リクエストを再送信します。
検証エラー
一般的な原因
コマンドは、すぐに 400 レベルの HTTP エラーと説明メッセージを返します。これは、無効なクラスター状態、リソース状態、または設定パラメータが原因で発生します。
解決方法
レスポンスに記載されている特定の検証エラーに対処し、更新オペレーションを再試行します。