PCS AWS でのクラスターの更新 - AWS PCS

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

PCS AWS でのクラスターの更新

AWS PCS では、UpdateCluster API またはコンソールを使用して、作成後にクラスター設定を更新できます。インフラストラクチャを再構築することなくクラスター設定を変更できるため、運用上のオーバーヘッドが軽減され、中断が最小限に抑えられます。

クラスター更新の利点

PCS AWS クラスターを更新すると、サービスを中断することなく、HPC インフラストラクチャを新しい要件に適応させることができます。設定の変更には、クラスターの再構築に 1 時間以上かかるのではなく、数分かかります。この機能は、最小限のダウンタイムを必要とする本番環境や、ワークロードパターンの変化に応じてクラスター設定を調整する必要があるチームにとって重要です。

サポートされている設定の変更

設定の 3 つの主要なカテゴリを変更できます。

  • アカウンティング設定 - マネージドアカウンティングを有効または無効にし、保持設定を構成します。

  • スケールダウン動作 - scaleDownIdleTimeパラメータを調整します。これにより、PCS AWS が自動的にインスタンスを終了するまで、動的インスタンスがアイドル状態のままになる時間を制御します。

  • Slurm カスタム設定 - Prolog、Epilog、SelectTypeParameters など、クラスターレベルで適用されるサポートされている Slurm 設定を変更します。

制限

クラスターの作成後に特定の設定を変更することはできません。具体的には次のとおりです。

  • セキュリティグループ設定

  • VPC サブネットの選択

  • クラスターサイズ

  • Slurm バージョン

  • クラスター名

これらの設定はクラスターのアーキテクチャの基礎であり、変更するには新しいクラスターを作成する必要があります。

クラスター更新の前提条件

クラスターを更新する前に、次の条件が満たされていることを確認してください。

  • クラスターは ACTIVEUPDATE_FAILED、または SUSPENDED状態である必要があります

  • 関連するすべてのリソース (キュー、コンピューティングノードグループ) は ACTIVE状態である必要があります

  • UpdateCluster オペレーションには適切な IAM アクセス許可が必要です

  • 他の更新オペレーションは進行中にできません

プロセスとジョブの影響を更新する

更新オペレーション中、クラスターコントローラーが一時的に到達不能になっても、コンピューティングノードは既存のジョブを引き続き実行します。ただし、この期間中、システムは新しいジョブの送信を受け入れたり、スケジュールを決定したりすることはできません。

コンソールと API インターフェイスの両方でクラスターの更新をモニタリングできます。クラスターは、更新中に次の状態に移行します。

  • UPDATING - 更新中

  • ACTIVE - 更新が正常に完了しました

  • UPDATE_FAILED - 更新でエラーが発生しました

更新中の請求

PCS AWS クラスターの標準時間単位の料金は、更新オペレーション中も継続されます。アカウンティングを無効にするようにクラスターを更新すると、アカウンティング機能の請求は、クラスターが UPDATING状態になるとすぐに停止します。アカウンティングを有効にすると、クラスターが正常に更新を完了して ACTIVE状態に戻るまで、請求は開始されません。