運用する
運用は、定期的な標準化と管理の必要があります。自動化、頻繁にある小さい変更、定期的な品質保証テスト、および変更を追跡、監査、ロールバック、およびレビューするための定義済みメカニズムを重視してください。変更は小さいもので頻繁にはなく、スケジュールされたダウンタイムを必要としませんし、手動で実行する必要もありません。ワークロードの主要な運用指標に基づいた幅広いログとメトリクスを収集して確認し、継続した運用を確保する必要があります。
AWS では、HPC オペレーションを処理するための追加ツールを使用できます。これらのツールは、モニタリング支援からデプロイの自動化まで、さまざまです。例えば、Auto Scaling で失敗したインスタンスを再起動したり、CloudWatch を使用してクラスターの負荷メトリクスをモニタリングしたり、ジョブ終了時の通知を設定したり、マネージドサービス (AWS Batch など) を使用して失敗したジョブの再試行ルールを実装したりできます。クラウドネイティブツールで、アプリケーションのデプロイと変更管理を大幅に改善できます。
手動または自動のリリース管理プロセスは、小さな増分変更と追跡されたバージョンに基づいている必要があります。操作に影響を与えることなく、問題を引き起こすリリースを元に戻すことができる必要があります。AWS CodePipeline や AWS CodeDeploy などの継続的統合および継続的デプロイツールを使用して、変更デプロイを自動化します。AWS CodeCommit などのバージョン管理ツールでソースコードの変更を追跡し、AWS CloudFormation テンプレートなどの自動化ツールでインフラストラクチャ設定を追跡します。
| HPCOPS 3: 変更の影響を最小限に抑えながら、ワークロードを進化させる方法 |
|---|
| HPCOPS 4: ワークロードをモニタリングして、期待どおりに動作していることを確認する方法 |
|---|
HPC にクラウドを使用する場合、新しい運用について考慮してください。オンプレミスクラスターのサイズは固定されていますが、クラウドクラスターは必要に合わせて拡張できます。HPC のクラウドネイティブアーキテクチャも、オンプレミスアーキテクチャとは異なる動作を行います。たとえば、ジョブの到着時、ジョブ送信とオンデマンドインスタンスリソースのプロビジョニングには、異なるメカニズムを使用します。クラウドの弾力性とクラウドネイティブアーキテクチャの動的な性質に対応できる運用手順を採用する必要があります。