クラスターの更新を試行する - AWS ParallelCluster

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

クラスターの更新を試行する

次のセクションでは、クラスターを更新しようとして問題が発生した場合に役立つトラブルシューティングソリューションを示します。

pcluster update-cluster コマンドのローカル実行に失敗する

失敗の詳細について、ローカルファイルシステムの ~/.parallelcluster/pcluster-cli.log を確認します。

pcluster describe-cluster コマンドで clusterStatusUPDATE_FAILED であることが表示されている

クラスタースタックの更新がロールバックされた場合、エラーの詳細について /var/log/chef-client.log ファイルを確認します。

問題が GitHub の にある GitHub の既知の問題AWS ParallelClusterに記載されているかどうかを確認します。 GitHub

ログ に従ってロールバックが失敗した場合/var/log/chef-client.log、失敗の増幅を防ぐために停止clustermgtdされた可能性があります。この場合、ヘッドノードで次のコマンドを実行して手動で再起動する必要があります。

$ /opt/parallelcluster/pyenv/versions/3.12.11/envs/cookbook_virtualenv/bin/supervisorctl start clustermgtd

クラスターの更新がタイムアウトになる

これは cfn-hup が実行されていないことに関連する問題の可能性があります。cfn-hup デーモンが外部の原因により終了させられる場合、自動的に再開されることはありません。cfn-hup が実行されていない場合、クラスターの更新中に CloudFormation スタックは期待どおりに更新プロセスを開始しますが、更新手順はヘッドノードでアクティブ化されず、最終的にスタックのデプロイはタイムアウトになります。詳細については、「cfn-hup が実行していない場合のクラスター更新タイムアウトのトラブルシューティング」を参照してトラブルシューティングと問題からの復旧を行ってください。