再起動後に PCS AWS の EC2 インスタンスが終了して置き換えられる - AWS PCS

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

再起動後に PCS AWS の EC2 インスタンスが終了して置き換えられる

問題の概要

コンピューティングノードグループの EC2 インスタンスを再起動すると、 AWS PCS は自動的に終了してインスタンスを置き換えます。

これが発生する理由

AWS PCS はインスタンスの再起動をサポートしていません。EC2 インスタンスを再起動すると、 AWS PCS はインスタンスを異常と見なし、置き換えます。 AWS PCS がインスタンスを継続的に終了して置き換える場合は、起動後にインスタンスが再起動されることが原因である可能性があります。例としては、EC2 インスタンスでのオートメーションによる再起動 (パッチ適用後の自動再起動など)、EC2 インスタンス外部のオートメーション (ネットワーク管理アプリケーションなど)、別の AWS サービス ( など AWS Systems Manager)、人による手動再起動などがあります。

対応方法

slurmctld または slurmdログをチェックして、インスタンスが再起動されたかどうかを確認できます。詳細については、「PCS AWS のスケジューラログ」および「Amazon CloudWatch AWS を使用した PCS インスタンスのモニタリング」を参照してください。次のslurmctldログエントリの例は、インスタンスが再起動したことを示しています。

[2024-09-12T06:42:50.393+00:00] validate_node_specs: Node Login-1 unexpectedly rebooted boot_time=1726123354 last response=1726123285
パッチ適用による再起動

パッチを適用した後は、再起動が必要になることがよくあります。 AWS PCS コンピューティングノードグループの一部である EC2 インスタンスに直接パッチを適用しないでください。EC2 インスタンスにパッチを適用する必要がある場合は、更新された Amazon マシンイメージ (AMI) にパッチを適用し、更新された AMI を使用するようにコンピューティングノードグループを更新する必要があります。これらのコンピューティングノードグループに対して AWS PCS が起動する新しい EC2 インスタンスは、更新された (パッチが適用された) AMI を使用します。詳細については、「PCS のカスタム Amazon AWS マシンイメージ (AMIs)」を参照してください。