障害の管理 - ハイパフォーマンスコンピューティングレンズ

障害の管理

複雑なシステムでは障害が時折発生することが予想されるため、これらの障害の認識、対応、再発生の防御が重要です。障害のシナリオには、クラスターの起動障害、または特定のワークロードでの障害などがあります。

HPCREL 2: チェックポイントを使用して、アプリケーションを障害から回復させる方法

耐障害性の改善にはいくつかの方法があります。長時間実行する場合、コードに定期的なチェックポイントを組み込むと、障害が発生してもパーシャル状態から続行できます。チェックポイント設定はアプリケーションレベルでの障害管理の一般的な機能で、多くの HPC アプリケーションにすでに組み込まれています。アプリケーションが定期的に中間結果を書き出すのが、最も一般的です。中間結果は潜在的なアプリケーションエラーの分析情報を提供し、必要に応じてケースを再起動することで、作業が部分的に失われるようにします。

極めて費用対効果が高いが潜在的に割り込み可能なインスタンスを使用している場合、チェックポイント機能はスポットインスタンスで役立ちます。さらに、一部のアプリケーションでは、デフォルトのスポット割り込み動作を変更する (例えば、インスタンスを終了するのではなく、停止または休止状態にする) ことでメリットを享受できる場合があります。障害管理のためにチェックポイントを使用する場合、ストレージオプションの耐久性を考慮することが重要です。

HPCREL 3: アーキテクチャの耐障害性の計画方法

複数のアベイラビリティーゾーンにデプロイする場合、耐障害性を改善できます。密結合 HPC アプリケーションの低レイテンシー要件では、個々のケースが単一のクラスターのプレースメントグループとアベイラビリティーゾーン内に存在している必要があります。一方、疎結合アプリケーションにはこのような低レイテンシー要件はないため、複数のアベイラビリティーゾーンにデプロイする機能により障害管理を改善できます。

この設計に決定する際には、信頼性とコストの柱間のトレードオフを考慮してください。コンピューティングおよびストレージインフラストラクチャ (ヘッドノードや接続済みストレージなど) の複製には追加コストがかかります。データをアベイラビリティーゾーンまたは別の AWS リージョンに移動する際には、データ転送料金が発生する場合があります。緊急ではないユースケースの場合、災害対策 (DR) イベントの一部として別のアベイラビリティーゾーンに移動すること以外、望ましい方法がない場合があります。